论文部分内容阅读
对高维度基因数据研究的一个重要目标就是识别和疾病的发生和发展有关的基因标记,其中十分有代表性的例子是微阵列数据的预后分析。从微阵列基因表达数据中搜寻显著相关的生物标记是十分困难的。由于基因表达数据的高维度性质使得标准的生存分析技术无法直接应用其中,而且在被研究的数以千计的基因中,只有很小的一部分基因是与疾病有关的。当研究的对象为时间数据时,往往由于删失情况的存在而无法得到准确的数据,因而筛选相关的基因变得十分具有挑战性。我们提出利用弹性网惩罚规范化加速失效模型的Gehan估计方法,从而筛选出对生存时间有重要影响的基因数据,采用和LASSO相似的算法得到估计值,并且证明了估计值的性质。和已经存在的基于逆概率加权和Buckley and James估计不同,本文所提出的方法不要求对删失数据的额外假设,使得本方法更加具有普遍适用性。在本文中我们做了大量数字模拟,其中部分模拟采用Cai,T.于2009年发表的文章中对模拟研究的设置,从而对所提方法在有限样本上进行了验证。通过和Cai,T.的方法进行对比可以发现本文方法在筛选变量的能力上有所提高,并且能够处理变量个数大于样本观测值的情况,这是Cai,T.的方法所无法解决的。但是本文方法也存在着一定的缺陷,如在协变量间相关系数较大时均方误差和Cai,T.相比较大等。最后我们将所提方法用于Beer, D文章中的肺腺癌实验研究数据,筛选出与肺腺癌有关联的基因数据。在最终筛选出的数据中我们选出了Beer, D文章所没有找出的基因,并且通过t检验表明这些基因对病人是否患病有显著影响,当然所选基因是否与疾病真正相关仍需要后续临床研究的证明。