论文部分内容阅读
近年来,海量数据给人们带来巨大信息量的同时,也给数据的分析方法提出了巨大挑战。在数据变量维数很大、样本量却较小的情形下,判断总体之间是否有显著差异,是如今假设检验的一个热点问题。一方面,经典方法一般研究的是大样本情形,不适用于高维数据分析;另一方面,在收集样本比较困难的情况下,若两个总体相似,我们就可以合并样本进行数据分析。
处理高维数据一个自然的思路是,将数据降维再进行分析。主成分分析是一种有效的降维手段。它最大限度地保留了原始数据协方差的信息。通过特征向量对坐标轴进行正交旋转,使得旋转后的主成分之间不相关。特征根表明主成分的方差。因此,为了比较总体协方差矩阵,我们可以通过比较所做的正交变换以及主成分的方差来做出判断。本文基于这两个方面的考虑,提出了对正态总体协方差阵∑1=∑2的检验方法。用协方差矩阵的特征向量构造统计量检验所做的正交变换是否相同;用特征根构造统计量检验主成分的方差是否相等。在数据变量维度很大、样本容量却较小的情形下,这两个检验统计量之间正相关,因此本文将两者相加构成新的统计量用于检验协方差。模拟数据和实际数据的结果表明,该方法可以控制I型错误,并有效地拒绝原假设,检验效果不错。尤其当原始变量可以用少数几个主成分来代表时,这种方法可以有效地提取信息,从而简化检验过程。