论文部分内容阅读
数据降维是数据挖掘的一个非常重要的工具和方法。数据降维的目的是找出隐藏在数据中的低维结构,通常可以分为线性降维和非线性降维。线性降维方法(如主成分分析、多维缩放)能够保持高维数据点之间的线性关系。由于现实中数据的有用特征往往不是特征的线性组合,人们提出了非线性降维方法(即流形学习)来处理非线性数据集。局部线性嵌套㈣是一种经典的流形学习方法,它有参数少、计算快、易求全局最优解等优点。但它也有着一定的缺点:LLE假设数据点位于一个稠密采样的流形上,这样局部邻域就能很好地逼近流形的局部结构。然而现实中很多数据集都不能满足这个假设,数据集的采样密度比较稀疏,数据之间会产生较大的间隔,直观上可以看作具有多流形结构,如果用LLE进行可视化或者分类应用,得到的结果会较差。
本文我们对LLE的缺点进行了详细分析。对于带有噪声的数据集,我们提出了一种鲁棒的解决方案;并对具有多流形结构的数据集,提出了一种半监督的改进方法:度量局部线性嵌套(Metric LLE)。它利用数据集的先验类别信息,进行距离度量学习,用学习得到的马氏距离代替传统的欧氏距离,对数据集中的相关成分赋以较大的权重,对数据集中的不相关成分赋以较小的权重。实验结果表明它对采样密度稀疏的数据集的可视化和分类有着较好的效果。我们还针对流形学习中的增量学习问题提出了一种参数化映射算法,它利用高斯混合模型对高维数据和对应的低维嵌入进行建模,通过期望最大化算法估计模型的参数。实验结果表明该方法能够精确有效地计算得到新增高维数据点对应的低维坐标。