论文部分内容阅读
近年来,高维线性回归模型在信息技术、生物学、化学计量学、基因组学、经济学、金融学、功能性磁共振成像等科学领域备受关注.“高维”回归模型是指在回归模型中未知变量的个数比样品的数量大得多.很显然,如果没有额外的假设,这类数据是病态的,是几乎是现在技术不可能解决的.所以通常我们要在模型上做出一些假设.而一个比较好的假设条件是使用稀疏假设.即假定只有少数未知变量影响样本的观测值.高维数据分析给统计学家带来许多挑战,迫切需要新的方法和理论. 为了估计高维线性回归的回归系数,需要选取适当的回归方法.普通的最小二乘回归模型的主旨在于基于解释变量来估计因变量的均值.而分位数回归模型利用自变量和因变量的条件分位数来进行建模.与最小二乘回归相比,条件分位数回归模型具有稳健型和灵活性的优点.所以本文考虑使用分位数回归模型来解决高维稀疏线性回归模型. 长期以来,加正则项是一个处理高维稀疏数据的有效的并被广泛使用的方法.加正则项这一技巧可以使函数更快的收敛.另外,这一技术可以使得高维线性模型的求解变得容易.因为加上正则项,许多回归模型都具有很好的oracle性质.正则项分为很多种,主要有lp,ll和加权ll惩罚.本文中,考虑加权ll惩罚. 在医学领域中,删失分位数回归是做生存分析的有力工具.删失数据是指在某种设定下,样本值并不能被完全观测到的数据.例如,样本值高于或低于某一个固定(或随机)的值时,我们只能观测到那个固定(或随机的值).这样得到的数据是不完整的,叫做删失数据.在医学领域中,删失数据分位数回归模型已经取代Cox比例风险模型和加速失效时间(AFT)模型成为研究生存分析的主要方法.本文中,我们考虑加正则项的稀疏高维删失分位数回归模型.由于删失分位数回归模型最终可以转换为分位数回归模型的线性结合,我们可以将解决分位数回归模型的方法用于解决删失数据分位数回归模型. 文中,首次使用光滑函数解决删失分位数回归的问题.首先,在第一、二、三章分别介绍了分位数以及删失数据以及高维数据的相关背景知识以及基本性质.其次,列举了两个光滑函数,包括分位数Huber惩罚函数,去代替分位数函数.由于Huber惩罚函数具有和分位数损失函数一样的最优值点,在文章的理论部分主要使用Huber惩罚函数作为研究对象.使用光滑函数使得模型的目标函数——删失分位数回归模型成为可微函数.因此可以得到了有着一阶和二阶次微分的目标函数.在可微的基础上,利用加权的ll正则惩罚项,为删失数据分位数回归模型设计了一个加权光滑迭代算法——MIRL,去实现删失分位数回归中的变量选择问题.于是不仅可以得到算法的收敛性,还证明了模型的最优解在一般假设条件下具有渐近正态性质,oracle性质等良好的统计性质.数值实验部分,做了充分的实验——随机高斯矩阵实验和Toeplitz协方差矩阵实验.在数值实验表中,最明显的特征就是FPR和TPR分别几乎是0和1.这表示,方法可以准确的将有效变量挑选出来,这就说明模型和算法有很好的变量选择功能.不仅实验误差非常小,而且实现了很好的变量选择效果,这说明算法有很好的效果.