论文部分内容阅读
流形学习是一种新颖的非线性降维技术,是当前机器学习、数据挖掘和模式识别领域的研究热点。本论文以提高流形学习处理实际问题的能力为目的,主要研究了流形学习的稳健性以及流形学习在模式识别中的应用两个问题,所做的主要工作及创新性成果如下:1.提出基于编码长度的噪声点检测方法。传统的噪声点检测算法没有考虑流形上局部线性全局非线性的特点,并不完全适合于流形学习。本文基于编码长度提出新的迭代噪声点检测方法。编码长度是一种结构描述子,其相比于传统的欧氏距离能够更好地描述数据的几何结构。迭代方案的设计使得该方法较传统方法具有更好的拓扑稳定性。本文所提噪声点检测算法可作为预处理步骤使用,以增强经典流形学习算法的稳健性。2.提出基于近邻排序测度的噪声邻域选择方法。考虑到利用欧氏距离求得的近邻可能不再是流形意义上的近邻,本文基于近邻需要相互承认的思想定义了衡量近邻关系的测度——近邻排序测度。随后,本文采取邻域扩展加非近邻移除的策略,提出基于近邻排序测度的邻域选择方法。与传统的k近邻方法相比,所提方法对参数变化不敏感,并且更适合处理噪声流形学习问题。3.针对局部切空间排列算法难以有效处理稀疏采样数据和非均匀分布数据的缺点提出一种改进算法。首先提出一种基于L1范数的局部切空间估计方法,由于同时考虑了距离和结构因素,该方法得到的切空间较主成分分析方法更为准确。其次,在坐标排列步骤为了减小排列误差,设计了一种基于流形结构的加权坐标排列方案,并给出了具体的求解方法。基于人造数据和真实数据的实验表明,该算法能够有效地处理稀疏和非均匀分布的流形数据。4.将流形学习与稀疏表示理论和非参数判别分析技术相结合,分别提出SPPNDA和SRNDA两种监督特征提取算法。SPPNDA算法通过在最大化非参数类间离差的同时保持类内稀疏重构关系来求解最优投影矩阵,SRNDA算法通过在最大化非参数类间离差的同时最小化稀疏类内离差来求解最优投影矩阵。与现有基于流形学习的特征提取算法相比,SPPNDA和SRNDA算法的特点是:基于同类样本的稀疏表示来构造图,克服了参数选择的困难;利用非参数技术来刻画类间信息,能够更好地处理非高斯分布的数据;同时考虑了类内几何结构和类间信息,使所提两种算法较传统基于流形学习的特征提取算法更具鉴别力。5.提出基于子类结构保持的特征选择算法。针对现有基于流形学习的特征选择算法对邻域参数选择较为敏感且难以有效处理复杂分布数据的缺点,本文将近邻传播算法和子类信息引入到特征选择中,提出基于子类结构保持的特征选择算法。该方法首先基于近邻传播算法划分子类,然后采用图模型分别对子类内结构和子类间结构进行描述,最后通过同时最大化子类间信息和最小化子类内信息来进行特征选择。由于子类结构能同时反映局部几何结构信息和样本的类别信息,该方法在特征选择性能上表现良好。在人脸数据集和遥感数据集上的实验验证了该算法的有效性。