论文部分内容阅读
高维数据的变量选择问题最近十几年来一直是统计及其相关领域研究的热点,基于线性回归模型讨论变量选择方法的文章层出不穷,基于其它模型讨论变量选择方法的文章也层见迭出.最近,大多数文章讨论的热点是基于损失函数加惩罚函数的变量选择方法,以及与其对应的规范化参数选取的准则和惩罚估计的算法.主要研究了矩条件模型下的变量选择,包括线性回归模型,广义线性模型,分位数回归模型,部分线性模型和时间序列模型等满足某些矩条件的模型. 在论文的第2章和第3章,对一般的矩条件模型,提出了基于非凸惩罚函数的惩罚经验似然方法来进行变量选择,分别得到了参数维数固定和参数维数随样本量同时增大时惩罚经验似然估计的Oracle性质,即模型选择过程的相合性和非零参数估计的渐近正态性.提出了修正的LQA-Newton-Raphson算法和相合的BIC类型准则来分别应对惩罚经验似然估计的优化计算和规范化参数的选取.另外,在避免估计选入模型的参数方差的同时,类似于经验似然的似然比统计量,惩罚经验似然的惩罚经验似然比统计量可以用来构造区间估计和假设检验统计量. 在论文的第4章,对线性回归模型提出了跳惩罚函数,得到了基于跳惩罚函数的惩罚最小二乘估计——跳择估计以及自适应跳择估计.跳择估计可以视为最优子集回归估计,因为其非零参数的估计是最小二乘估计.在一定条件下,可以得到参数个数固定时和参数个数随样本量同时增大时(自适应)跳择估计的Oracle性质,该估计自然满足无偏性.提出了跳算法来处理跳择估计的优化计算,该算法和经典的LARS算法每一步的计算量相同,并且,自适应跳算法能够以概率趋向于保证重要解释变量优先进入模型.为了应对变量选择过程中存在的多重共线性问题,借助于岭回归的思想,提出了(自适应)岭跳估计.岭跳估计的渐近性质和岭跳算法分别与跳择估计的渐近性质和跳算法相对应,但是岭跳算法凭借岭回归克服多重共线性作用可以直接处理高维数据的变量选择.另外,在解释变量间满足不完全正交条件时,在处理超高维变量选择时,边际跳择估计以概率趋向于将重要解释变量和非重要解释变量区分开. 在论文的第5章,提供了两种方法来处理向量自回归模型的模型选择.第一种方法是直接对向量自回归模型拉直后用线性回归模型的惩罚方法同时定阶和选取子集;另外一种方法是先定阶后选取子集,提出了组跳算法在定阶的同时选出模不为的零系数矩阵所对应的滞后变量组,然后基于选出的向量自回归模型采用第一种方法选取子集.在一定条件下,两种方法得到的阶数估计和子集选取具有相合性,同时非零参数的估计满足Oracle性质. 采用大量的数值模拟和实例分析展示本文所提出的各种惩罚方法的表现.