基于多元t分布的概率主成分分析及其应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:caozhi7963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主成分分析(PCA)是一种常用的降维技巧,在图像处理、模式识别以及数据挖掘中都有很广泛的应用.但是,作为一种全局线性投影,经典的PCA用于实际中经常出现的非线性数据时不可能令人满足.于是,近年来人们提出了各种各样的非线性PCA及混合PCA.其中,特别重要的是由[39,40]提出的概率PCA(该文称为Gaussian-PPCA).在此学位论文中,我们将Gaussian-PPAC推广为基于多元t分布的概率PCA(下文称为t-PPCA),从而得到了一类无论在理论上还是在实际应用中均具有较大意义的通用数据降维算法.具体说来,我们的主要工作包含以下内容:·理论方面:假设数据来自m个d元t分布的混合;而每个混合成分均满足迷向(isotropic)因子分析模型见§3.2.1).在第三、四两间,我们用EM型算法导出了模型参数的极大似然估计.在此基础上,我们得到了一类新的数据投影及其重构的算法,即,t-PPCA.当t分布的自由度ν=∞时,t-PPCA就是Gaussian-PPCA.当m=1时,t-PPCA定义的数据投影的确来自某个矩阵S′的主成分分解(见§3.1);但只有在ν=∞时,S′才退化为样本协方差矩阵S.这说明经典主成分分析仅适用于来自正态分布的数据.·应用方面:我们用多元t分布的有限混合作为数据模型,保证了t-PPCA的稳健性,从而比Gaussian-PPCA更具实用价值.这在第五章的应用研究中得到了充分的证明.在§5.1的手写英文字母识别的实验中,结果表明t-PPCA的错误率大大小于使用Gaussian-PPCA的错误率(见表5.1).同时,我们发现数据投影对于某些分类是必须的.定现象有待于进一步的研究.在§5.2的图像压缩实验中,我们的图象重构质量明显优于使用Gaussian-PPCA的图象重构质量(比较图5.2及图5.3).
其他文献
自然科学和工程技术中的很多问题本质上就是微分方程,而偏微分方程(组)(简称为PDEs)是微分方程研究的主体,特别是非线性PDEs(简称为NLPDEs),所以求解NLPDEs的研究具有重要的意
在半环理论中,半环的结构一直是一个主要的研究内容,半环的同余、同态、理想,是研究半环结构的主要工具.文[2]给出了两个幺半群的半直积是正则半群的充要条件,从此开创了半直
物流作为“第三利润泉”随着市场经济的发展,对日常经济活动的影响逐日显著。在物流中,配送直接与消费者联系,配送所引起的费用已经成为物流费用的核心,因此配送路径的优化调度成
在几何造型,数控加工领域中.常常需要应用变形技术来处理一些易于弯曲伸缩的物体.像模拟力学中常见的几种变形.如:拉伸,弯曲,扭转,压缩等操作.在众多易于操作的交互式的变形
该文首先介绍了金融市场中事件冲击的研究方法.中国股市是一个典型的政策性市场,对于投资者与决策者来说,深刻理解政府政策对中国股市的影响是相当重要的.该文利用事件研究法
该文讨论了区间动力系统、广义区间动力系统能控性与稳定性方面的问题.综述了区间动力系统、广义区间动力系统稳定性方面的主要结果,并对其中一些结论所使用方法和工具作出了
确定在D={z∈C:|z|