论文部分内容阅读
随着信息技术的发展与应用,高维数据随之产生,被成功应用到“数字化”世界中,如高光谱图像分析、地理信息系统、计算生物基因学等。高维数据维数高、信息量繁杂的问题不断挑战着计算机的软、硬件能力。传统的聚类、分类等算法已不能满足对高维数据处理的需要。这时,流形学习成为解决数据维数过高的有效手段。流形学习的目的是把高维数据嵌入到低维流形中,得到低维空间表达效果。它是机器学习中的重要方法,成为高维数据降维的先进技术手段。在很多计算机应用领域中,流形学习有广泛的应用,成为近年来的研究重点、热点。这些方法有:等距映射、局部切空间排列和局部线性嵌入等。非线性降维方法几乎都是假设任何局部可近似线性化而提出的。但是在很多时候,高维数据样本点分布复杂,局部子空间很难满足局部可近似线性化的假设,导致最后的降维效果不理想。在这种情况下,局部邻域子空间的优化就成为了研究流形学习的重要方面。本文主要对局部线性嵌入(LLE)算法和局部切空间排列(LTSA)算法进行了研究,对流形学习中的邻域优化问题提出相应的解决方法:(1)研究经典局部线性嵌入(LLE)算法,对算法中全局信息和局部信息的提取机制进行分析后,在LLE的基础上提出了一种改进方法。经过实验证明,新方法有很好的稳定性和有效性。(2)研究经典局部切空间排列(LTSA)算法,发现存在局部邻域信息量不足、短路和噪音干扰等问题,严重影响降维效果,很难广泛应用于真实数据的处理中。对以上问题分析,发现经典降维算法都是采用全局固定的邻域大小。我们提出了一种基于压缩感知的邻域优化算法,运用压缩感知技术对高维空间目标点近邻进行压缩采样,构建“收—放”模型,自适应得到最优子空间,同时优化邻域组成元素,使得数据的整体降维效果更加稳定。