论文部分内容阅读
本文对于数据处理过程中常用的一些降维方法做了简单的分析介绍。首先,介绍了降维的主要概念以及数学定义,其中涉及到特征值问题以及优化问题,对于给定的一个高维空间数据集,对数据进行降维目的是将原来的高维空间进行压缩映射到低维空间当中,并且保持原始高维数据集的主要性质不变。当然,这其中还伴随着某些特征值问题。本文的主要任务之一是探索如何解决这些降维问题与优化问题,以及将高维数据如何可视化的研究;局部线性嵌入LLE方法是这篇文章主要研究的内容,并通过与线性降维方法的实例分析比较,从而分析了 LLE方法的优点及不足,且分析比较可以证明在实际应用中非线性降维还是很具实际意义的。本文的主要一个任务就是如何解决LLE方法其中存在的不足,并提出相应的改良方法。以下是提出了两种改进的LLE算法,对其参数的选择做出了一些改进,并且根据LLE方法不适用于稀疏非均匀数据集等的缺点,在方法优化中引入了加权矩阵的加权LLE方法,从而减小了方法的不适用性以及可适用性。此外,在样本点之间的距离应用测地距离而不是欧几里得距离来找到k个近邻的样本采集点,并通过公式验证了改进算法的可行性,以及此方法的有效性和实用性。