大维数据的总体协方差矩阵研究

来源 :中国科学技术大学 | 被引量 : 2次 | 上传用户：redghy

【摘要】

：

在过去的二十年中，统计方向最热门的研究领域就是高维数据，通常被称为高维度，低样本个数的数据，或“大p，小n”数据，这里p是数据维度，n是样本大小。高维数据给传统的统计带来了巨大的

【作者】

：

王成

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2013年01期

【关键词】

：

高维数据协方差矩阵极限谱分布特征向量压缩估计 Stieltjes变换

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在过去的二十年中，统计方向最热门的研究领域就是高维数据，通常被称为高维度，低样本个数的数据，或“大p，小n”数据，这里p是数据维度，n是样本大小。高维数据给传统的统计带来了巨大的挑战。其中最重要的一点就是，我们不能再像在经典统计分析中那样忽略了数据维度p的影响。　　在多元统计分析中，协方差矩阵具有非常重要的作用且具有广泛的应用，例如，降维中的主成分分析(PCA)，分类中线性或多项式判别分析(LDA和QDA)，图模型中的独立性和条件独立关系研究，线性回归中参数估计的置信区间，Hottelling T2统计量，Markowitz均值-方差分析等等。本文中，我们将专注于大维样本协方差矩阵以下三方面的问题。　　一，平稳时间序列中的总体协方差和样本协方差矩阵的极限谱分布研究。文章中，我们建立了一般的线性过程包括ARMA(p，q)过程的功率谱密度和极限谱分布函数之间的关系方程，并且得到了大维随机矩阵中的极限谱分布和时间序列中的功率谱密度函数之间的关系。特别的，我们分析了M-P率，AR(1)，MA(1)，ARMA(1，1)和m-相依模型，所有结果均可以延伸到具有相似的总体协方差矩阵的模型中。　　二，我们用传统的样本协方差矩阵重新定义似然比检验和L-W检验。在原假设条件下，得到了两个新检验的中心极限定理，结果适用于均值未知的非高斯分布的数据。另外，在局部对立假设条件下，我们研究了似然比检验的第二类错误，并详细讨论了两种类型假设检验的优劣。　　三，为了研究样本协方差矩阵Sn和总体协方差矩阵∑p的特征向量之间的关系，我们研究了矩阵∑1/2p（Sn+λIp）-1∑1/2p的渐近性质，并且考虑了它与矩阵（Sn+λIp）-1之间的关系。基于这部分理论结果，我们在损失函数1/ptr（∑p（λ1Sn+λ2Ip）-1-Ip）2.下得到了最优权重λ*1，λ*2的计算方法，针对∑-1p提出一个新的压缩估计Ω*=(λ*1Sn+λ*2Ip)-1.新的估计是非参数的，也就是我们没有假定具体的参数分布，也没有对总体协方差矩阵的结构有任何的假设条件。同时，新的估计适用于一般的数据，包括p≥n.

其他文献

黏弹性边界吸收在有限元模拟中的实现

摘要：本文针对由假定边界所产生的虚假边界反射这一问题，提出了采用黏弹性　　边界来吸收反射波。文中主要是基于Kelvin-Voigt模型，介绍了二维黏弹性边界，在二维黏弹性人工边界的理论基础上，引入了黏弹性边界的弹性系数和阻尼系数，然后利用大型通用有限元计算软件ANSYS，实现了对该边界吸收情况的有限元模拟，并且得到了较好的吸收效果。　　关键词：Kelvin-Voigt模型黏弹性边界有限元　　

期刊

Kelvin-Voigt模型黏弹性边界有限元

长音频与文本的对齐研究

长语音和文本的对齐可以促进对丰富的语音资源的大规模研究，例如，有声读物收集或者多媒体文档索引。对于这样的资源，基于传统的维特比强制对齐算法被证明是不足以胜任的，原因在维

学位

HTK鲁棒性语音识别长语音文本匹配自适应编辑距离

SVM中相关参数选择与应用研究

支持向量机是基于统计学习理论框架下提出的一种新型算法,在处理分类问题上具有明显的优势。目前,关于支持向量核函数及其相关参数的选取与研究越来越多,并发展的越来越成熟,

学位

支持向量机高斯核函数参数粒子群算法人脸识别

非线性不确定系统的直接自适应模糊控制

随着科技的迅速发展,工业生产过程变得格外复杂.因此,受不确定性、强非线性以及多变量等因素的影响,用精确的数学模型很难描述系统的动态特性.模糊控制则是处理复杂非线性系

学位

非线性系统自适应模糊控制反推技术输入到状态实际稳定

华为3G终端牵手沃达丰

围绕着华为与沃达丰签署全球框架协议的话题还在继续,在全球3G市场大步迈进的春天里,两家领先企业又再度牵手,签订3G手机战略合作协议,由华为定制沃达丰自有品牌的3G手机等无

期刊

华为无线终端牵手沃达丰战略合作自有品牌手机时间跨度领先企业框架协议合作协议巴塞罗那市场大商谈论签署签订春天

核密度估计中的窗宽选择方法

核方法是分布密度估计的主要非参数方法之一.在核密度估计过程中，窗宽的选择是研究的重点.本文首先回顾了一些常用的窗宽选择方法.然后根据Hall等(1991)的做法，通过对估计的偏

学位

收敛速度核密度估计非参数方法窗宽选择

基于内容的交互式图像检索技术的若干问题研究

随着数字图像数量的急剧增长，如何高效、快速地从海量图像数据中检索出用户所需的信息是当前图像应用领域的一个重要问题.20世纪90年代基于内容的图像检索(Content based imag

学位

图像检索相关反馈区域重要性粒子群优化算法

e-反演半群上模糊同余的若干研究

本文主要研究了E-反演半群上的模糊强正则同余.首先，我们定义了模糊强正则同余三元组，证明了E-反演半群上的每个模糊强正则同余由它的模糊强同余三元组唯一确定.进而得到E-反演

学位

E-反演半群模糊强正则同余模糊强正则同余三元组强π-逆半群模糊同余模糊群同余基础数学

Leader-following多智能体复杂动态网络的自适应同步与控制

　　本文主要利用自适应控制设计方法，研究 leader-following 多智能体复杂动态网络的自适应同步与控制问题。由于网络拓扑具有不同的结构，系统中可能存在未知的非线性动态信息

学位

多智能体复杂网络自适应leader-following切换拓扑联合连通

污染环境中的Gompertz食饵—捕食者模型分析

随着社会经济和工农业的发展，环境污染问题也越来越严重，对于生活于其中的生物种群造成愈发严重的危害，生态毒理学研究已成为数学生态学的热点问题.实践表明，污染环境中毒素排放

学位

Gompertz模型环境污染生物种群全局吸引性

大维数据的总体协方差矩阵研究

与本文相关的学术论文