论文部分内容阅读
变量选择对高维数据的处理起着至关重要的作用.有效的变量选择通过剔除多余的变量能够给出最优的预测变量,从而得到最简洁的模型.同时,有效的变量选择能够提高模型的预测精度.自Tibshirani(1996)提出Lasso惩罚方法以来,基于惩罚思想的变量选择方法受到了广大统计学者的广泛关注.惩罚方法能够在选择变量的同时得到参数的估计且惩罚方法的计算量也小很多,因此惩罚变量选择方法在处理高维数据时有着比传统变量选择方法无可比拟的优越性.本文给出了我们关于高维变量选择研究取得的一些成果.本文的内容可以分为三部分.第一部分是关于高维参数模型的变量选择问题.本文第二章和第三章给出了有关高维广义线性模型和最小二乘近似的理论结果.同时,通过数据模拟和实例分析对估计的效果和变量选择的有限样本表现进行验证.此外,第四章还研究了参数个数发散和参数个数远大于样本量两种情况下最小一乘回归的变量选择.在一定条件下,证明了SCAD惩罚最小一乘估计具有Oracle性质.数据模拟和实例分析也很好的支持了我们的理论结果.第二部分是关于高维半参数模型的变量选择.第五章利用桥惩罚函数对部分线性模型的线性部分进行变量选择.在适当的条件下,证明了参数部分的桥惩罚估计具有Oracle性质.同时,证明了桥惩罚的使用并没有影响非参数部分估计的收敛速度.数据模拟和实例分析说明桥惩罚的变量选择效果是非常好的.第三部分是关于I型区间删失数据的变量选择问题的研究.本文第六章主要研究了高维现状数据下连续广义线性模型的变量选择问题.利用SCAD惩罚函数对现状数据中的自变量进行选择.给出了参数个数发散时参数的惩罚估计的最优收敛速度.当调整参数满足适当的条件时,该方法能够一致地选出真实模型.显著变量的估计具有和真实模型下参数估计相同的渐近分布.最后的数据模拟和实例分析结果说明删失数据下惩罚似然估计的表现也非常理想.