
流形学习,全称流形学习方法(Manifold Learning师),自2000年在著名的科学杂志《Science》被首次提出以来,已成为信息科学领域的研究热点。在理论和应用上,流形学习方法都具有重要的研究意义。假设数据是均来自匀采样于一个高维欧氏空间中的低维流形,流形学粉室底集感习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简沿船判云身空互得银或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内360百科在规律。
- 中文名称 流形学习
- 外文名称 Manifold Learning
- 介绍 成为信息科学领域的研究热点
- 简介 2000年科学杂志Science首次提出
- 定义 从高维采样数据恢复低维流形结构
分类
流形学习方法是模式识别来自中的基本方法,分为线性流形学习算法和非线性流形压加愿范推止轻四宗规学习算法,非线性流形学习算法包括等距映射(Isomap) ,拉普拉斯特征映射(Laplacian eigenmaps,LE) ,局部线性嵌入(Locally-linear emb360百科edding,LLE) 等。而线性方法则是对非线性方法的线性扩展,如主成分分析(Principal component analysis,PC确营A),多维尺度变换(Multidimensional scaling,MDS)等。
Isomap
准流针突升亮正封和住界Isomap由麻省理工学院计算机科学与人工智能实验室的JoshTenenbaum教授于2000在Science杂志上提出 。Isomap的主要目标是对于给定的高维流形,欲识排考境声复拉屋找到其对应的低维嵌入,使得高维流形上数据点间的近邻结构在低维嵌入中得以保持。Isomap以MDS(Multidimensional Scaling)为计算工具误高提安形照学喜买端晶,创新之处在于计算高维流形上数据点间距离时,不是用传统的欧式距离,而是采用微分几何中的测地线距离(或称为曲语格抗红交屋义内线距离),并且找到了一种用实际输入数据估计其测地线距离的算法。(即图论中的最小路径逼近测地线距造市香助充左神煤茶离)
Isomap的优点在于:
- 求解过程依赖于线性代数的特征值和特征向量问题,保证了结果的稳健性和全局最优性;
- 能通过剩余方差判定隐含的低维毫营输溶婷活实杂伯据师嵌入的本质维数;
- Isomap方法计算过程中只需要确定唯一的一个参析曾数(近邻参数k或邻域半径e)。
LE
LE(Laplacian eigenmaps)的基本思想是,用一个无向有权图描述一个流形,然后通过用图来自的嵌入(graph embedding)来找低维表示。360百科简单来说,就是在保持图的局部邻接关系的情况下,将其图从高维空间中重新画在一个低维空间中(graph drawing)。
在至今为止的流形学习的典型方法中,LE速度最快,但是效果婷头机映月义相对来说不理想。
LE的特点,就是如果出现离群值(outlier)情况下,矛友士引图否广宁其鲁棒性(robustness)十分理想。这个特点在其他流形学习方法中没有体现。
约LLE
局部线性嵌入相关工作发表在Science (2000) 后上 ,是非线性降维的里程碑。
LLE算法可以归结为三步 :
- 寻找每个样本点的k个近邻点;
- 由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;
- 由该天言都继无激力西江孙华样本点的局部重建权值矩阵和其印建千负或宗艺近邻点计算出该样本点的输出值。具体的算法流程如下图所示。
PCA
主成分分析(PCA)被认为是一种特别成功的特征提取和降维算法。它的原宽织任实甲系理是,利用对原来的变量进行线性组合而得到新的变量(主成分),这些变量之间的方差最大。因为数据原来的变量之间有可能差距不大,描述的内容差不多,故效率低下。换句话说,我们可能说了很多话,但是却在讲同一件事情。由于方差在数据中描述的变量之间的差距,故方差最大也就意味着新的变量之间有比较大的差距。这样,就可以以较高的效率描述数据。
MDS
与PCA类似,多维尺受解儿另都心屋儿每简刚度分析(MDS)的目的也是把观察的数据用较少的维数来表达。然而,MDS利用的是成对样本间相似性构建合于益调题适的低维空间,使得样本在此空间的距离和在高维空间中的样本间的相似性尽可能的保持一致。
MDS方法有5个关深花制毛图波键的要素,分别为主体、客体、准则、准则权重、主体权重。具体定义为:
- 客体:被评估的对象。可以认为是待分类的几种类别。
- 主体:评估客体的单位。就支激起表完是训练数据。
- 准则:根据立底论析研究目的自行定义,用以评估客体优劣的标后以减班督准。
- 准则权重:主体衡量准则重要性后,对每个准众才击斤列八织烈镇八则分别赋予权重值。
- 主体权重:研究者权衡准则重要性后,对主体赋予权重值。