论文部分内容阅读
高维数据分析被广泛地应用于各个领域,如计算生物学,医学,金融分析,风险控制等。在本文中,我们将致力于统计中的高维数据分析,具体地,我们主要考虑以下两个方面:高维假设检验和高维变量选择。首先,我们将简要介绍一下统计中的高维数据分析的现状。其次,我们考虑高维情形下,变量集之间独立性的假设检验问题。我们将给出一个新的检验统计量,并且,在样本量和维数一起趋于无穷的情形下,给出该统计量在原假设成立下的渐近分布。因此,该统计量可以应用于维数与样本量接近,甚至大于样本量的情形。接着,我们研究了高维情形下自适应Lasso (Adaptive Lasso)的性质。特别地,我们考虑线性回归模型的误差项具有比高斯型尾概率分布更一般的分布,即只要求误差项具有有限的2k阶矩,k>0。在此条件下,我们证明了自适应Lasso仍具有Oracle’性质。进一步,我们给出了一种两步骤(Two-step)的方法,来处理超高维数据。之后,我们考虑了高维情形下自适应集群Lasso (Adaptive group Lasso)的性质。类似于自适应Lasso,我们证明了高维情形下自适应集群Lasso的Oracle’性质。最后,我们研究了无穷方差自回归模型的变量选择问题。特别地,我们采用两种不同的惩罚方法来同时进行变量选择和参数估计。我们先采用自权重最小绝对偏差(SLAD)作为惩罚方法中的损失函数,结合自适应Lasso来建模,并证明了由此得到的估计具有模型选择的相合性和渐近正态性。然后,我们指出,若采用普通的最小绝对偏差(LAD)作为损失函数,能够有效地提高变量选择的精度,但是,我们不能得到最终估计的渐近分布。因此,如以变量选择为目的,后者更佳,但若需要对模型进行进一步的统计推断,则前者更适合。