论文部分内容阅读
在过去的二十年中,统计方向最热门的研究领域就是高维数据,通常被称为高维度,低样本个数的数据,或“大p,小n”数据,这里p是数据维度,n是样本大小。高维数据给传统的统计带来了巨大的挑战。其中最重要的一点就是,我们不能再像在经典统计分析中那样忽略了数据维度p的影响。
在多元统计分析中,协方差矩阵具有非常重要的作用且具有广泛的应用,例如,降维中的主成分分析(PCA),分类中线性或多项式判别分析(LDA和QDA),图模型中的独立性和条件独立关系研究,线性回归中参数估计的置信区间,Hottelling T2统计量,Markowitz均值-方差分析等等。本文中,我们将专注于大维样本协方差矩阵以下三方面的问题。
一,平稳时间序列中的总体协方差和样本协方差矩阵的极限谱分布研究。文章中,我们建立了一般的线性过程包括ARMA(p,q)过程的功率谱密度和极限谱分布函数之间的关系方程,并且得到了大维随机矩阵中的极限谱分布和时间序列中的功率谱密度函数之间的关系。特别的,我们分析了M-P率,AR(1),MA(1),ARMA(1,1)和m-相依模型,所有结果均可以延伸到具有相似的总体协方差矩阵的模型中。
二,我们用传统的样本协方差矩阵重新定义似然比检验和L-W检验。在原假设条件下,得到了两个新检验的中心极限定理,结果适用于均值未知的非高斯分布的数据。另外,在局部对立假设条件下,我们研究了似然比检验的第二类错误,并详细讨论了两种类型假设检验的优劣。
三,为了研究样本协方差矩阵Sn和总体协方差矩阵∑p的特征向量之间的关系,我们研究了矩阵∑1/2p(Sn+λIp)-1∑1/2p的渐近性质,并且考虑了它与矩阵(Sn+λIp)-1之间的关系。基于这部分理论结果,我们在损失函数1/ptr(∑p(λ1Sn+λ2Ip)-1-Ip)2.下得到了最优权重λ*1,λ*2的计算方法,针对∑-1p提出一个新的压缩估计Ω*=(λ*1Sn+λ*2Ip)-1.新的估计是非参数的,也就是我们没有假定具体的参数分布,也没有对总体协方差矩阵的结构有任何的假设条件。同时,新的估计适用于一般的数据,包括p≥n.