失效时间数据的半参数变系数模型的统计推断

来源 :中国科学院数学与系统科学研究院 | 被引量 : 0次 | 上传用户:cy58452
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生存分析是研究生存现象和失效时间数据及其统计规律的一门学科。在生物学、医学、社会学、经济学以及工业可靠性等研究中都有广泛而重要的应用。生存分析的研究对象主要是失效时间数据,而在失效时间数据的分析中,对风险的评估,以及对影响失效时间因素的分析显得尤为重要。例如,在临床试验中,失效时间往往与处理组别,个体的外科指数,生物化学数据以及年龄、性别等因素有关。因此,通过对个体样本的考察,人们希望能够利用回归模型,由协变量给出风险以及失效时间的预测。   Cox比例风险模型是研究失效时间数据中最为著名的回归模型之一。该模型通过假设风险率函数与基准风险率函数之间的比例具有对数线性的关系,可以将协变量作用在风险函数上的效应清楚明确地展示出来。Cox比例风险模型在金融风险中也有广泛的应用,例如对于企业破产概率的研究,商业银行信用风险的分析以及寿险退保等问题的研究,都起到非常重要的作用。另外一种可以很好地刻画协变量效应的模型为加性风险回归模型,该模型通过假设风险率函数与基准风险率函数之间的差值具有线性关系而体现出来的。这两种重要的风险模型都可以通过计数过程及其相关的鞅理论给出回归参数估计的渐近分布,从而进行统计推断。   但是在具体的实际应用中,传统的单一线性结构或单一对数线性结构是几乎不存在的,仍然使用往往会造成严重的模型误判,使得模型偏差过大。尽管非参数结构可以很好地解决这个问题,但在生物医学的大量研究中,由于协变量的维数往往都是高维的,因此会产生所谓的“维数灾祸”的问题。此外,若线性或对数线性结构的确存在,单纯的非参数结构还会使得功效大大降低。因此,本文以半参数变系数风险模型为研究基础。该模型不仅结合了线性模型便于解释,易于构造估计和进行统计检验,以及非参数模型稳健而适于变化的优点,而且其变系数部分还可以描述协变量的交互影响,以及动态变化(比如变系数与时间有关)和数据降维等。   本文以半参数变系数结构的风险模型为基础,对不同类型的失效时间数据进行了分析,并考虑了模型构建中的估计、检验和变量选择等问题,进行了较为系统的统计推断和研究。事实上,在实际应用中,往往还存某个影响失效时间的主要暴露变量。例如,对于心脏病、糖尿病等慢性疾病来说,年龄是影响寿命的最主要的因素。因此在本文的第二章中,考察了带有暴露变量非参数截断函数项的半参数变系数Cox比例风险模型的估计问题。对于多元失效时间数据,当失效类型之间存在有较强的相关性时,如何选择权函数从而给出Cox比例风险模型中回归参数的加权估计是本文第三章主要研究的问题。在这一章中,不仅构造了复合加权估计,还给出了该估计的协方差阵以及协方差阵的估计。此外,若模型的函数系数向量中,有某些分量事实上为常数,则模型的功效会被降低,因此在本文的第四章中就考察了在Cox比例风险模型中函数系数是否为常数这一假设检验问题。实际应用中大量的高维数据使得失效时间数据的变量选择问题越来越重要,本文的第五章就利用惩罚函数,对带有截断函数项的半参数变系数加性风险回归模型中的参数项及非参数项进行了变量选择,构造了它们的惩罚似然估计。而在许多临床试验中,某些协变量的获得往往需要昂贵的试验费用和花费大量的时间,因此case-cohort试验设计就常被用来取代case-control以降低成本,因此本文第六章就是在case-cohort试验背景下,对多元失效时间数据的半参数变系数加性风险回归模型进行了统计推断。   第一章主要对研究背景和研究现状进行了简单介绍。   第二章则研究了带有非参数截断函数项的半参数变系数Cox比例风险模型。尽管已有文献研究过没有非参数截断函数项的情形,但由于可以通过添加这一项解决模型误判带来的模型偏差,因此本章考虑的就是包含该项的更为一般的模型。同时,正是由于这一项的出现,也使得我们在计算上较以往的更为复杂繁琐。由于该项无法直接估计得到,只能给出其导数的估计,因此该函数的估计需要用到所有的观测信息。首先构造了局部部分似然估计方法(LPL)来估计在每个点上非参数项以及回归参数项的估计,随后利用profile部分似然方法(PLPL)给出了达到√n收敛速度的回归参数的估计。还分别给出了回归参数和非参数项在LPLE和PLPLE方法下的渐近正态性。并随后通过模拟计算对本章中的方法和估计进行了考察,最后将其应用到Busselton人口健康调查数据的实例研究中。   第三章主要是讨论了多元失效时间数据的Cox比例风险模型的加权估计问题。对于多元失效时间数据,可以根据工作独立的假定来估计边际风险模型中的未知参数。但为了充分利用不同失效类型之间的潜在相关性,可以通过   加权的方法给出参数的加权部分似然估计。但此时存在权函数的选择问题,本文根据两类准则对最优权函数进行了选择,并从参数总体的角度出发,构造了未知参数的复合加权部分似然估计,并给出了该估计的协方差阵以及协方差阵的估计。还通过数值模拟工作将本文构造的估计与工作独立估计进行比较,并可以看出本文所构造估计的优越性。   第四章考虑的是变系数Cox比例风险模型的检验问题。使用变系数结构的前提是假设协变量的系数不为常数,但当这一前提不成立时,变系数结构就会使得模型的功效大大降低。这一章正是对某些协变量系数是否为常数这一假设检验问题进行了检验,而在原假设成立时,该模型即为一个半参数变系数的Cox比例风险模型。利用广义似然比的思想构造了检验统计量,并给出了统计量的大样本性质。并从结果中可以看出,此时Wilks现象依然成立,且在Ingster(1993)给出的最优收敛速度的含义下是渐近最优的。   第五章利用非凹惩罚函数对带有截断函数项的半参数变系数加性风险回归模型中的参数项及非参数项进行了变量选择。首先使用局部线性拟合技巧,构造了参数项的profile惩罚似然估计,给出了其渐近性质。随后,在第一部分的基础上,本章还基于样条方法构造了函数系数的惩罚似然估计,并同样证明了其渐近性质。从本章结果可以看出,这些惩罚似然估计在真实值为0点的估计为0,同时非零项对应的估计还达到了各自的最优收敛速度。最后通过数值模拟对本章中的估计方法和变量选择的效果进行了考察。   第六章主要研究的是半参数变系数加性风险回归模型。考虑的是在临床试验中常见的Case-cohort研究下,该模型对多元失效数据的拟合问题。本章通过加权函数,给出了在Case-cohort研究下,模型中的回归参数和变系数项的广义最小二乘估计,并随后使用profile的技巧得到了回归参数的√n相合的估计。这些估计的渐近正态性也都是可以得到的。
其他文献
代数曲线曲面是代数几何研究的基本对象,也是计算机辅助几何设计,计算机图形学等学科中的主要工具之一,在制图,造型等方面有广泛的应用。本文就计算代数曲线曲面的恰当参数化与可
这篇博士学位论文由下面五章组成:   第一章,主要是介绍了有关Diraz算子,Dirac-Witten算子的一些背景知识,以及叙述了本篇论文的主要结果。   第二章,简要地介绍了有关spin
二维谐波恢复问题是多维信号处理领域的一个典型问题,同时也是统计信号处理研究的一个重要内容.它在声纳、雷达、地球物理、无线通信、射电天文学、核磁共振、声学等众多领域
中央报刊治理工作协调领导小组召开全体会议2003年12月下旬,中央报刊治理工作协调领导小组召开全体会议,研究如何进一步做好报刊专项治理工作。中共中央政治局委员、书记处书
对s-弧传递图的研究始于Tutte在1949年提出的一个著名结论:对于s≥6,不存在具有三次自由群的s-弧图.后来,Weiss对Tutte的这个结果进行了总结归纳:不存在度数≥3的8-弧传递图.从此
随着金融危机在全世界的蔓延,如何获得稳定的投资收益,如何在安全可控的范围内进行证券组合的投资成为投资人和基金经理最为关注的一个问题,同时随着股指期货在我国证券市场的上
最短路问题是一个经典的最优化问题.最短路问题在现实生活中有着广泛的应用,比如交通运输、网络设计等领域.该问题已被很好地解决。到目前为止,对该问题的研究已取得了一些理论
优化子空间方法是求解优化问题的一类特殊方法。这类方法的基本特征是每次迭代在一个低维子空间寻找最优点。对于大规模优化问题,子空间方法每次迭代的计算量将远小于传统的全
本文对序半群上的(∈,∈vq)模糊理想进行了研究。主要包括:第一章,是全文的综述。第二章,给出本文所需的主要概念和结论。第三章,主要定义和研究序半群上的(∈,∈∨q)各类模糊理
模糊回归分析是模糊理论与经典回归分析的完美结合,自1982年由Tanaka等人建立第一个模糊回归分析模型以来,关于模糊回归方法的研究便得到许多学者的关注。在这短短几十年里,模糊