论文部分内容阅读
主成分分析(PCA)是一种常用的降维技巧,在图像处理、模式识别以及数据挖掘中都有很广泛的应用.但是,作为一种全局线性投影,经典的PCA用于实际中经常出现的非线性数据时不可能令人满足.于是,近年来人们提出了各种各样的非线性PCA及混合PCA.其中,特别重要的是由[39,40]提出的概率PCA(该文称为Gaussian-PPCA).在此学位论文中,我们将Gaussian-PPAC推广为基于多元t分布的概率PCA(下文称为t-PPCA),从而得到了一类无论在理论上还是在实际应用中均具有较大意义的通用数据降维算法.具体说来,我们的主要工作包含以下内容:·理论方面:假设数据来自m个d元t分布的混合;而每个混合成分均满足迷向(isotropic)因子分析模型见§3.2.1).在第三、四两间,我们用EM型算法导出了模型参数的极大似然估计.在此基础上,我们得到了一类新的数据投影及其重构的算法,即,t-PPCA.当t分布的自由度ν=∞时,t-PPCA就是Gaussian-PPCA.当m=1时,t-PPCA定义的数据投影的确来自某个矩阵S′的主成分分解(见§3.1);但只有在ν=∞时,S′才退化为样本协方差矩阵S.这说明经典主成分分析仅适用于来自正态分布的数据.·应用方面:我们用多元t分布的有限混合作为数据模型,保证了t-PPCA的稳健性,从而比Gaussian-PPCA更具实用价值.这在第五章的应用研究中得到了充分的证明.在§5.1的手写英文字母识别的实验中,结果表明t-PPCA的错误率大大小于使用Gaussian-PPCA的错误率(见表5.1).同时,我们发现数据投影对于某些分类是必须的.定现象有待于进一步的研究.在§5.2的图像压缩实验中,我们的图象重构质量明显优于使用Gaussian-PPCA的图象重构质量(比较图5.2及图5.3).