论文部分内容阅读
近年来,随着科学技术的发展,人们对于各种数据的获取较之以往更为方便和普遍。然而,在很多实际应用问题中,我们所采集到的数据往往具有高维数、非线性等特征。这些特征一方面导致了“维数灾难”现象的出现,另一方面,不利于人们直接理解及发现数据集所蕴含的内在规律。因此,利用降维技术对高维数据进行处理就显得尤为重要。传统的降维方法(例如主成分分析、独立成分分析、线性判别分析等)能够有效地处理具有线性结构和高斯分布的数据集。但当数据集具有非线性结构时,这些方法却难以发现隐藏在高维数据中的内在低维信息。基于流形学习的数据降维方法假设高维观测数据位于嵌入到高维欧式空间的低维流形上,因此可以有效地发现和保持在高维空间中呈现高度扭曲数据集的内在几何结构。目前,流形学习算法已经成为了数据挖掘、模式识别、统计机器学习等相关领域研究的热点。本文对基于流形学习的数据降维方法进行了深入地研究,提出了3种基于流形学习的数据降维和特征提取方法,并将其应用于具体的人脸识别问题中。通过仿真实验和与其它算法的比较,验证了文中算法的有效性。主要工作和创新成果集中在以下几个方面:1、对现有的线性及非线性降维算法进行总结,并对流形学习的定义、研究现状、应用领域进行介绍。通过对人脸识别技术的分析,指出了将流形学习应用于人脸识别问题的合理性和可行性。2、为了解决传统主成分分析(PCA)算法无法应用于非线性结构数据的缺点,提出了一种基于局部PCA和低维坐标排列的流形学习算法。在本方法中,首先利用测地线距离的约束和最小集覆盖方法将数据所在的整体非线性流形划分成若干个互相重叠的最大线性贴片(Maximum Linear Patch,MLP)。由于得到的每个最大线性贴片所包含的数据具有线性结构,因此,我们可以利用传统的主成分分析(PCA)方法对每个最大线性贴片中的数据进行降维,得到其局部低维坐标。最后,将坐标排列(alignment)技术和最大间隔准则(Maximum Margin Criterion)结合,对所有最大线性贴片的局部低维坐标进行排列,得到整体数据集的全局降维结果。由于本方法在降维的过程中同时考虑到了数据的流形结构和类别信息,因此,在人脸识别的实验中取得了较好的结果。3、提出了一种自适应加权的子模式局部保持投影算法(Aw-SpLPP)。与传统的局部保持投影(LPP)算法不同,Aw-SpLPP首先将输入的高维原始数据划分成若干个子模式,然后利用LPP算法对得到的每个子模式集合分别进行降维,得到可以保持各个子模式集合局部结构的低维特征。此外,为了增强算法的鲁棒性,采用一种自适应的方法计算每个子模式对于识别的权重。通过将Aw-SpLPP算法应用于人脸识别问题,可以看出该方法不仅能够提高传统LPP的计算效率,在识别的准确率方面也要优于其它的子模式算法。4、提出了一种结构保持的投影算法(SPP)。在本方法中,我们同样将原始高维数据划分成若干个子模式。但与前面提到的Aw-SpLPP和其它基于子模式的方法不同,SPP在对每个子模式进行降维的过程中,不仅考虑到了它所在子模式集合的流形结构,还考虑到了它与来自于同一样本的其它子模式之间的关系。通过SPP算法,我们可以在保持各个子模式集合的非线性流形结构的同时保持每个输入样本内在结构。与前面提到的两种基于流形学习的降维算法相同,我们将SPP算法应用于人脸识别问题并在标准人脸数据库上验证了算法的有效性。从实验结果可以看出,SPP算法要优于其它全局和局部识别方法。