论文部分内容阅读
随着科学技术的飞速发展,实际数据的结构越来越复杂,维数也越来越高,如何有效地描述数据,方便后续分析,如分类、检索、识别等,已成为急需要解决的问题之一。特征提取是一种有效解决方案,它不仅可以挖掘出数据的本质特征,而且降低了计算复杂度,已成为模式识别、机器学习、文档聚类等领域的研究热点。论文从数据的全局几何结构和局部几何结构入手,详细分析了基于Graph的特征提取算法的特点、本质及内在联系;在此基础上,重点研究了集成全局几何结构和局部几何结构的判别分析特征提取,主要内容和贡献有:第一,针对LDA、SDA和LapLDA算法不能有效地保持同类数据间的多样性几何属性,导致过学习、泛化能力不好等问题,提出了增强Fisher判别分析(Enhanced Fisher Discriminant Analysis,EFDC)算法。该算法利用邻接图描述同类数据间的多样几何关系,并给出了度量局部多样性几何属性的离散度,然后结合基于全局统计特性的类内离散度和类间离散度,建立了鲁棒性较好的特征提取准则。因此EFDC可以很好地检测到数据的判别结构,同时保持数据的内在几何结构,包括相似和多样性几何结构,从而缓和过学习问题,使算法的泛化能力得到提高,实验结果证实了算法的有效性。第二,针对EFDC算法不能有效地挖掘不同类边界处的判别结构,提出了集成全局和局部结构的鲁棒判别分析算法(Joint Global and Local StructureDiscriminant Analysis,JGLDA)。该算法用三个邻接图分别描述同类别数据的相似和多样属性以及不同类边界处的判别信息,然后通过最小化局部相似性离散度和最大化局部多样性离散度保持数据的局部拓扑结构,通过最大化边界判别离散度挖掘边界处的判别结构,最后结合全局几何结构信息,构建了JGLDA算法模型,它充分利用了数据分布的全局统计信息和局部结构信息,因此算法的识别效果更好,鲁棒性更强,实验结果证实了算法性能的优越性。