论文部分内容阅读
Cox比例危险模型自从1972年提出以来一直是生存数据分析的主要模型之一。当同一个体存在重复观测时,或者数据按照不同来源分组时,对生存数据的建模需要考虑个体的异质性影响,忽略异质性的影响往往会导致估计结果有严重的偏误。将脆弱性(Frailty)因子引入模型就是为了解释这种小可忽略的异质性,脆弱性模型是Cox比例危险模型的一个推广。处理Cox比例危险模型中的随机效应问题,文献中一般采用边际似然估计方法,利用EM(Expectation-Maximization)算法。EM算法的收敛对初始值的选择和停止计算的规则非常敏感,而且EM算法需要生存时间和随机效应的联合分布函数对随机效应因子的积分,这种积分计算一般需要数值算法,当参数维数很高时,计算会很复杂,而且参数估计的方差也不能直接获得。贝叶斯抽样技术以及MCMC方法在估计脆弱性模型方面有着广泛的应用,这些方法通用而且稳健,但是计算仍然相对复杂。Lee和Nelder(1996)针对混合广义线性模型提出的等级似然(Hierarchical-likelihood)估计方法,理论上可以允许随机效应是任何分布,而且避免了EM算法的高维积分,可以容易的推广到多重随机效应问题。由于Cox比例危险模型实质上是一种特殊的广义线性模型,因此可以将适合于混合广义线性模型的理论推广到脆弱性模型,本文的研究包括以下几个方面:
第一,研究了威布尔脆弱性比例危险模型的估计。考虑到威布尔分布的简单性和灵活性,本文对包含右删失的纵列生存数据建立了威布尔分布的脆弱性半参数比例危险模型,允许数据打结的情况下,给出了模型的等级似然函数,本文采用最大化等级似然函数的方法估计协变量系数,同时预测随机效应的实现值:对随机效应的分布参数,本文采用调整的轮廓等级似然(MAPHL)方法估计。为了评价威布尔脆弱性模型并将其和对数正态脆弱性模型以及伽玛脆弱性模型作比较,本文做了三个模拟研究,分别生成这三种随机效应的生存数据,对每种数据均用这三种脆弱性模型进行等级似然估计,同时给出Cox模型的估计结果。模拟结果发现在等级似然估计下,威布尔分布最适合半参数比例危险模型脆弱性因子的分布设定,等级似然方法给出了协变量系数和随机效应参数非常精确的估计;研究还发现,模型中如果忽略异质性的影响,会使得协变量系数的估计在绝对值上有偏小趋势。
第二,研究了脆弱性模型的随机效应检验问题。由于随机效应的均值可以被基本危险率吸收,可以将其设为零均值。如果模型不存在随机效应,通常认为随机效应的方差是零,而随机效应的方差为零就相当于随机效应的实现值全部为零。本文在随机效应的最优无偏预测基础上,建立了在特定脆弱性模型下随机效应的沃尔德检验和似然比检验,并且将这两个检验和Commenges和Anderson(1995)的得分检验做比较。本文模拟生成不带随机效应以及带有上述三种随机效应的生存数据,分别进行三种脆弱性模型的估计和检验。模拟研究发现不带随机效应的数据,各种检验方法基本都接受了没有随机效应的假设;而无论数据生成过程是何种随机效应,在威布尔脆弱性模型下用沃尔德和似然比检验,功效都很高,这和威布尔脆弱性模型给出的参数估计最精确相一致。当数据存在适度删失时,威布尔模型下的检验功效仍然很好,甚至好于得分检验。
第三,将本文建立的脆弱性模型的估计和检验用于分析肾病感染数据和烧伤病人的皮肤移植数据以及老鼠毒理试验数据,并且在脆弱性模型框架下推广了Cox-Snell残差和Deviance残差,将它们用于模型拟合的检验。除了老鼠毒理实验数据,沃尔德检验和似然比检验都表明其余两个数据集数据都存在一定的个体异质性,但是三个数据的得分检验都没有检验出随机效应。三个实例的脆弱性模型下的等级似然估计得到了和文献上近似的结论,推广的Cox-Snell残差和Deviance残差也能较好的反应模型的拟合状况。
第四,研究了同一个体重复观测生存数据的随机效应因子呈AR(1)结构的脆弱性模型的估计。本文推导了相应的等级似然函数,用MAPHL方法对随机效应的方差和相关系数进行联合估计,而Yau和McGILCHRIST(1998)的REML和ML估计方法没有考虑到方差和相关系数的联合信息。本文将MAPHL方法和REML、ML方法进行了比较,发现随机效应的方差和相关系数的REML迭代公式正是调整的轮廓等级似然函数对其一阶导数为零形成的迭代公式。本文分析了含有重复观测的CGD数据,将CGD数据用本文研究的各种随机效应模型进行估计和比较,发现模型中加入病人的很多反应个体特征的协变量后,能够很好的控制异质性影响,Cox模型估计结果和各种随机效应模型估计结果很接近。
第五,研究了竞争风险下的脆弱性模型。对包含右删失的纵列生存数据,本文在每种风险下建立一个脆弱性Cox比例危险模型,允许不同风险下的脆弱性因子相关来体现不同风险的危险率之间的联系。本文推导了在竞争风险下比例危险脆弱性模型的等级似然函数,并对二元正态分布的随机效应模型进行了模拟研究。研究表明,模型忽略异质性的影响会给模型参数的估计带来很大偏误,等级似然估计能够给出协变量系数相当精确的估计,随机效应的方差估计比较稳定,而随机效应的相关系数估计还不够准确。