论文部分内容阅读
本文主要研究了竞争风险数据和删失数据下分位数回归及相关问题.所谓的竞争风险数据是指所研究的个体面临至少两个相互排斥失效类型事件的风险,这类数据广泛存在于经济、金融、工业、生物和医学等现实领域中,是现代统计学研究的前沿和热点问题之一.分析竞争风险数据和删失数据,以及对这些数据进行统计建模都具有重要的理论和实际意义。但因其复杂性,不管是从理论上还是从计算上都会带来相当大的困难和挑战. 本文将对竞争风险数据和删失数据进行分位数回归的统计建模,众所周知,分位数回归比均值回归更具有稳健性,且可以灵活全面的刻画分布的特征.但也由于分位数回归本身的目标函数是非光滑函数,这给在这两类复杂数据的分析带有本质困难.本文先对带删失的竞争风险数据下的分位数回归问题进行了研究.利用无偏估计方程的方法对右删失竞争风险数据提出了一类新的转移分位数回归模型,并进行统计分析与推断.在实际中,剩余寿命也是人们非常感兴趣的量,所以我们在第3章研究了带删失的竞争风险数据幂变换下的剩余寿命分位数回归模型.另外,在统计应用中为了得到好的估计,会收集大量的样本,但有时候会出现感兴趣事件发生率特别低而删失率很高的情况,或者,在采集所有样本的信息过程人力和物质成本过高时,通常都会采用Case-cohort的设计方案,这种设计方案在统计分析可以明显地节约成本,因为不同失效类型可以共用子队列,我们在第4章考虑Case-cohort设计下带删失的竞争风险数据分位数回归模型.由于在删失数据的分析中,很多模型的建立都需要误差项和协变量相互独立的假设,然而,这种假设有时候并不成立.虽然分位数回归可以从某种程度上处理误差项的异质性问题,但是误差项和协变量闻的依赖性远比误差异质性复杂的多,因此,我们在第5章考虑了删失回归模型下的误差项和协变量间独立性的检验问题. 本文分为六章,具体研究成果和安排如下: 在第1章主要介绍了数据的结构特点和研究背景,给出了这些数据类型下的常见统计模型及其分析方法.并提出本文的研究目的和意义. 第2章研究了带删失的竞争风险数据的分位数回归,用无偏估计方程的方法对变换的带删失竞争风险数据分位数建立分位数回归模型,在模型构建中,既考虑了删失变量与协变量无关的情形又考虑了依赖协变量的删失情形.当给定了转移参数时,本章所提的估计方程可以通过最小化L1型凸函数的方法来求解,求解可以方便地利用R语言软件中现存的函数简单又可靠已有程序实现,大大方便了建立模型的应用.而转移参数可以基于残差构造累积和过程来求解.基于经验过程的相关理论,我们证明了所提出的估计的一致相合性和渐近正态性.通过模拟计算和实际例子的应用,可以看出所提出的估计在有限样本下是表现良好. 第3章中,在第2章基础上我们进一步研究在竞争风险数据中,构建了剩余寿命分位数模型及进行统计分析.结合协变量的信息,在带删失的竞争风险数据下,提出了幂变换下的剩余寿命分位数.利用逆概率权的思想建立无偏估计方程,考虑了独立于协变量的删失和依赖于协变量的删失这两种情况下的估计.对于给定转换参数的情形,不需要用格子点搜索法,本章所提出的估计方程可以转化为凸函数进行快速而稳定的求解.然后通过构造一个基于残差的累积和过程来求解转换参数,这是一个一元的函数,可以通过格子点搜索法就能很快求出解.利用经验过程的方法,建立了估计的渐近性质(即一致相合性和渐近正态性).另外,通过模拟计算获得的模拟结果说明,在有限样本下,所提估计的表现是很好. 第4章考虑了病例-队列(Case-cohort)设计下带删失的竞争风险数据分位数回归模型.因为病例-队列设计会带来人力、财力和物力的节约而受到广泛研究.对于竞争风险数据,这种节约更加明显,因为不同失效事件可以共用一个子队列.根据是否使用其他风险的协变量信息,构造了逆概率权和组合的逆概率加权两类估计方程,给出分位数回归模型参数参数的估计.同时给出所提出估计的大样本性质,即获得估计的相全性和渐近正态性.通过不需要重新解方程的重抽样方法来估计渐近方差,大大地简化计算并大大提高了计算的速度.另外,也进一步考虑了估计变化的影响效果.通过模拟计算和一个实际例子来评估了所提出估计的有限样本表现,二者都表明所提出的估计表现的相当稳健,模拟结果与理论结果的相一致.由于组合的逆概率权估计用到更多的信息,模拟和实际例子中都显示它比逆概率权估计更加有效. 在第5章中,我们提出在删失数据下加速失效模型中综合检验误差项及协变量间独立性的方法,不仅可以检验异质性,还可以检验模型是否失拟.基于一个非参数工作模型,得到一个加权的卡方检验统计量.通过重抽样的机制来近似的原假设下检验统计量的分布.大量的数值模拟和两个实际例子来表明我们的方法的有效性和实用性. 第6章,我们在总结本文的基础上,同时对未来的工作进一步的展望.