论文部分内容阅读
在实际中,为了应用回归分析方法,人们通常首先要对回归自变量进行选择,以剔除掉对因变量的影响较弱的自变量。当自变量的维数p比样本容量n小或者p相对于n来说不是很大时,变量选择问题有许多成熟的有效的方法,如Lasso、Adaptive Lasso、Elastic Net、SCAD等方法。近几年来,随着数据收集技术的发展以及数据收集成本的下降,高维数据甚至超高维数据越来越多地出现在科学的各个领域中。所谓的超高维数据是指p远远大于n的情况。这所谓的“大p小n”问题给上述方法带来了严重的挑战,如统计的精确性、模型的可解释性、算法的复杂度等。针对这样的超高维数据,统计学者们提出了所谓的特征筛选方法,即从这非常多的p个变量中剔除对因变量影响较小的变量,这样就可以对保留下来的自变量进行精确的选择并估计参数。经常使用的一些特征筛选方法包括:SIS、SIRS、NRS、DC-SIS、RRCS等。统计学家已经证明这些方法具有良好的性质,如确定筛选性质、选择相合性质等,这就可以确保它们能进行有效的特征筛选。本文旨在对这些常用的特征筛选方法进行全面的介绍与比较分析。文章首先详细地介绍这些特征筛选方法,包括它们的理论依据、估计量、筛选准则以及理论性质等,并对它们采用的准则、适用的模型范围、以及优缺点等进行了比较分析;从理论上对这些方法以及它们的异同有了明确的认识。然后,文章又通过数值模拟研究对这些方法的筛选效果进行了对比分析。本文设置的模型考虑了自变量之间不同的相关性、不同的误差分布、不同的活跃预测变量个数等诸多情况;通过模拟研究,对这些方法的适用范围以及模拟效果有了直观的印象。分析模拟结果可以发现,这几种方法的模拟效果和它们的理论性质基本是吻合的,它们都能较好地进行特征筛选。在线性模型下,只要信噪比不是很小,本文研究的这几种方法都有很好的模拟效果,能准确地对预测变量进行排序和筛选;在本文设置的这几种模拟情形下,SIS方法只在误差分布非厚尾的线性模型下有良好的筛选效果,SIRS方法在多指标模型和变换模型下的筛选效果比较理想,NRS方法和RRCS方法都在厚尾分布、多指标模型、变换模型以及非参数模型下的有着不错的筛选效果,DC-SIS方法在厚尾分布和非参数模型下的模拟结果有明显的改善;而在预测变量与响应变量对称相关的设置下,本文的模拟试验结果表明,没有哪一种方法明显地优于其它方法。随着大数据时代的到来,超高维数据越来越多地出现在科学研究以及人们的生活中。因此研究特征筛选的方法不但具有重要的理论意义,而且也有着重要的实用价值。本文通过理论介绍以及模拟研究认为,在实际中使用这些特征筛选方法时,首先要尽量根据实际的问题以及经验确定合适的模型,然后选择一个较好的方法,这样才能确保有良好的使用效果。