论文部分内容阅读
部分线性模型是一类重要的半参数回归模型,结构是将线性模型与非参数模型相结合,既保留了参数回归模型容易解释的优点,又保留了非参数回归模型灵活性的特点,可以更好地拟合数据.随着科学技术和计算机的快速发展,数据收集变得越来越容易,超高维数据频繁的出现在生物医学、工程研究、金融等各个领域,如何处理和分析这些数据成为目前具有挑战的前沿问题.在超高维数据下,针对线性回归模型的变量筛选研究已经很多,而部分线性模型更多的还是在低维数据下进行研究,因此研究超高维部分线性模型的变量筛选具有理论意义和实际意义. 本文主要考虑超高维部分线性模型,其中线性部分的维数p远远大于样本量n,且维数p随着样本量n呈指数阶增长.为了有效的进行变量筛选,根据截面向前回归(profiled forward regression,简写为PFR)算法,考虑到协变量之间的相关性,本文提出了profile贪婪向前回归(profile greedy forward regression,简写为PGFR)算法.从模拟研究和实例分析,可以看出PGFR完成的是非常有效的. 本论文的研究工作主要有以下两个方面: 1.针对超高维部分线性模型,首先基于半参数回归的profile方法,把超高维部分线性模型转化成超高维线性模型.其次,为了对高维线性分量进行有效的变量筛选,考虑到协变量之间的相关性,提出了PGFR变量筛选方法.在一定正则条件下,证明了所提PGFR变量筛选方法具有筛选相合性.为了确定所选模型是否能够依概率趋于1包含真实模型,进一步提出了BIC准则,并证明了BIC准则能够依概率趋于1选择真实模型; 2.针对PGFR变量筛选方法,本论文将考虑在每次做变量筛选时,选入2个或4个协变量进入模型作为重要变量的情况.首先通过三个不同的例子进行数值模拟,观察所得结果,发现筛选重要变量具有有效性.然后将本方法分别与PFR、确定性独立筛选(sure independence screening,简写为SIS)和迭代确定性独立筛选(iterative sure independence screening,简写为ISIS)方法进行对比分析,发现在协变量间共线性较强或者模型信噪比较低时,每一次选入4个协变量进入模型的效果更好.为了验证本文所提出的PGFR方法的有效性,我们对一个实际数据进行分析,并和PFR、SIS和ISIS方法进行对比,发现所提方法能够有效完成变量筛选. 最后,给出结论与展望,概述了本论文所获得的主要研究成果和创新点,并指出进一步研究的问题和方向.