基于弹性网技术下的加速失效时间模型的规范化估计

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:fangduohui129
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对高维度基因数据研究的一个重要目标就是识别和疾病的发生和发展有关的基因标记,其中十分有代表性的例子是微阵列数据的预后分析。从微阵列基因表达数据中搜寻显著相关的生物标记是十分困难的。由于基因表达数据的高维度性质使得标准的生存分析技术无法直接应用其中,而且在被研究的数以千计的基因中,只有很小的一部分基因是与疾病有关的。当研究的对象为时间数据时,往往由于删失情况的存在而无法得到准确的数据,因而筛选相关的基因变得十分具有挑战性。我们提出利用弹性网惩罚规范化加速失效模型的Gehan估计方法,从而筛选出对生存时间有重要影响的基因数据,采用和LASSO相似的算法得到估计值,并且证明了估计值的性质。和已经存在的基于逆概率加权和Buckley and James估计不同,本文所提出的方法不要求对删失数据的额外假设,使得本方法更加具有普遍适用性。在本文中我们做了大量数字模拟,其中部分模拟采用Cai,T.于2009年发表的文章中对模拟研究的设置,从而对所提方法在有限样本上进行了验证。通过和Cai,T.的方法进行对比可以发现本文方法在筛选变量的能力上有所提高,并且能够处理变量个数大于样本观测值的情况,这是Cai,T.的方法所无法解决的。但是本文方法也存在着一定的缺陷,如在协变量间相关系数较大时均方误差和Cai,T.相比较大等。最后我们将所提方法用于Beer, D文章中的肺腺癌实验研究数据,筛选出与肺腺癌有关联的基因数据。在最终筛选出的数据中我们选出了Beer, D文章所没有找出的基因,并且通过t检验表明这些基因对病人是否患病有显著影响,当然所选基因是否与疾病真正相关仍需要后续临床研究的证明。
其他文献
教育督导的最终目的是通过与学校及其老师合作,促进学生的成长和发展。督导员要熟练掌握相应的关于学生的成长模式,并将其与学校和教师教学联系;此外,督导员还要了解学生的生活环
信息技术的应用是企业纵向边界变动的重要影响因素,21世纪以来随着数字化技术的应用以及全球化进程的加快,企业纵向边界的影响因素更加复杂,信息技术的发展改变了企业生产经营活
对以西江为水源的某水厂及其各处理工艺单元出水浊度进行为期1年的现场监测研究,发现原水浊度在夏秋高温季节变化较剧烈,水厂常规处理工艺对浊度的平均去除率约为98.83%,其中