论文部分内容阅读
数据降维是模式识别领域中一个重要环节,其基本任务是从高维数据中提取稳定有效的特征以满足后续学习任务。典型相关分析作为一种经典的多视图数据降维方法,其目的是研究同一对象两组变量间线性相关性进行特征提取,已经在模式识别领域得到广泛的关注和应用,然而,由于真实世界中数据的多样性,导致CCA如下典型缺陷:(1)作为一种线性算法,其不能很好地直接应用于非线性问题;(2)真实世界中数据难免带有噪声,所采用的欧氏距离度量导致了其本质上的非鲁棒性。近年来,研究人员陆续提出一些改进的CCA算法,然而,大多数算法只解决了CCA的非线性缺陷,仍旧缺乏对鲁棒性的研究。因此,本文针对典型相关分析鲁棒性问题做了深入研究,主要内容和研究成果如下:首先提出一种新的基于核诱导距离的鲁棒典型相关分析(KI-CCA),该方法采用径向基核函数诱导的鲁棒距离度量,不仅克服了CCA非鲁棒的不足,而且使1)现有的基于最大相关熵的鲁棒PCA成为特例;2)CCA具有非线性相关分析的能力。一方面由于核的多样性,使得KI-CCA也具有多样性,从而使其成为一般性的分析算法。另一方面,同CCA刻画问题相似使其解可归结为广义特征值问题。在人工数据集、多特征手写体数据集(MFD)和人脸数据集上(yale,AR,ORL)的实验验证了该方法的有效性。其次根据鲁棒化方式不同,对鲁棒典型相关分析进行了分类,具体分为直接鲁棒典型相关分析与间接鲁棒典型相关分析。KI-CCA算法即属于一类直接鲁棒典型相关分析。本文进一步提出一种间接鲁棒典型相关分析框架,该框架采用一种新的鲁棒主成分分析,即KI-PCA,作为数据预处理方法。该框架鲁棒的本质在于用鲁棒的数据预处理方法发现数据中的野值点,为CCA后续任务提供鲁棒性保证。最后深入研究本文中两种不同鲁棒方式的典型相关分析,从理论和实验上比较二者的性能。根据大量数据集的实验结果总结出结论,为后续的研究提供有意义的指导。