随机生存森林在癌症高维基因组数据中的应用

来源 :河北医科大学 | 被引量 : 1次 | 上传用户:zzx_lpx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:随机生存森林(Random Survival Forest,RSF)是在随机森林的基础上加入生存分析的一种机器学习方法,本研究应用随机生存森林方法分析乳腺癌病人淋巴结转移的基因表达高维数据,评价随机生存森林方法对癌症高维生存数据的分析效果。方法:1.数据来源于荷兰癌症研究所Van’t Veer等人[1]对乳腺癌病人进行DNA微阵列分析的公开数据库。选取其中78例入选时未发生淋巴结转移的乳腺癌患者的4751个基因位点的高维生存数据。2.本研究所用RSF、Cox回归以及ROC分析,均采用R 3.4.3软件进行,分别由randomForestSRC、survival、survivalROC程序包实现。3.将数据随机分割成训练集(2/3)和验证集(1/3)两部分。模拟迭代不同ntree取值的RSF模型,选取最优参数。按最优参数构建RSF模型,评价每个变量的重要性。根据变量重要性评分从大到小排序,进行向前变量选择法,再次运用RSF算法,筛选出4751个位点中最具有影响作用的位点变量。对筛选后的变量集采用传统Cox回归模型进行分析。最后采用交叉验证的方法,绘制ROC曲线并计算曲线下平均面积AUC,评价Cox回归模型的效果。结果:1.随机生存森林模型ntree的最优参数为10000。2.随机生存森林筛选出了25个对乳腺癌转移最具影响力的基因位点。3.对25个位点进行Cox回归分析,最终筛选出9个位点具有统计学意义。保护性位点有:NM015955、NM003748、Contig43983RC、AB020713;危险性位点为:NM000436、NM001204、Contig55574RC、NM018964、Contig37562RC。4.随着观察时间的推移,AUC有所降低,但经交叉验证,AUC均在0.85以上,模型较为可靠。结论:1.随着随机生存森林生存树棵数的增多,错误率降低并趋于稳定,构建随机生存森林模型应该多次调整ntree,找到最优参数。2.随机生存森林对乳腺癌病人淋巴结转移的基因表达高维数据筛选的变量的预测准确度较高,验证集错误率低于训练集,表现出良好的泛化能力。3.随机生存森林模型结合Cox回归的分析方法能够有效的处理高维生存数据,随机生存森林模型筛选出适用于传统Cox回归分析的重要变量集,将重要变量结合Cox回归模型进一步分析,可以识别有意义的变量,并明确变量对终点事件有利或有害的具体关系。
其他文献
企业是产品创新的主体,创新是企业生存和发展的根本,企业创新的目的是为了获得回报和实现企业的可持续发展。成功的产品创新为企业带来超额的利润和树立企业的良好形象,提高
<正> 在我国城市化的进程中,乡镇企业已成为小城镇建设的重要经济基础,是小城镇经济的主体。科学的管理是促进小城镇经济发展的重要手段,经济管理是小城镇管理的重要内容。在
目的:观察养阴清热解毒法治疗表皮生长因子受体络氨酸激酶抑制剂(EGFR-TKIs)相关皮疹的临床疗效。方法:41例经病理确诊为晚期肺腺癌,接受表皮生长因子受体酪氨酸激酶抑制剂治
杜威是现代教育理念的开拓者,他认为教育要属于经验、通过经验和达到经验的教育,杜威的教育思想是基于人性可塑性而言的,他假设人性为“经验人”,认为人性具有不变的内容和可
<正>在过去的20年,视觉文化成了学术界最令人关注的课题之一。可是,到底什么是视觉文化研究呢?它是一个新兴的学科,还是前一段跨学科研究的总结?它是一个独立研究课题,还是文
本文通过介绍旅游商品在旅游业中的地位及国际状况 ,以中国旅游商品的发展历程为背景 ,归纳出故宫旅游商品的现状 ,最后提出故宫旅游商品的特色及相关对策
空语类理论的应用范围正在扩大。除了语迹之外 ,还包括大代语PRO ,空屈折语类 ,空限定语以及疑问空算子。有必要对这些空语类的特征和运作进行比较和考察。
<正>"数学广角"是新课程改革后增加的内容,体现了新课程的一种理念:数学思想方法的渗透。从一些公开课和自己的教学实践中,我体会到要真正发挥"数学广角"渗透数学思想方法的
痛风是危害人类健康的一种严重的代谢性疾病,目前痛风的治疗医师和患者均存在认识不足,痛风急性发作就服药治疗,平素由于无临床症状,同时又由于畏惧药物副作用,则不进行任何干预、