基于随机生存森林的改进肿瘤预后预测模型

来源 :大连海事大学 | 被引量 : 2次 | 上传用户:zixian007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是目前威胁人类健康的重大疾病之一,其发病率和死亡率呈逐年上升趋势。预后是疾病治疗的一个重要指标,识别癌症的预后标志物能为精准靶向治疗提供帮助。本文以肺腺癌(LUAD,Lung Adenocarcinoma)和乳腺癌(BRCA,Breast Invasive Carcinoma)为例,研究肿瘤预后预测模型。本文给出了一种基于随机生存森林(RSF,Random Survival Forest)的改进肿瘤预后预测模型,该模型利用特征选择和前向选择算法识别出LUAD和BRCA的预后标志物,与传统方法相比有效的提高了 LUAD和BRCA的预后预测准确性,这会为精准靶向治疗提供有效支持。主要工作如下:(1)数据的收集和预处理。本文所用的分子测序数据和临床数据来源于TCGA和GEO数据库,通过预处理删除含有缺失值的临床样本和标准化分子数据,将临床样本和分子样本进行匹配以获得满足实验要求的数据。(2)LUAD预后关键基因的识别。在LUAD训练集中,首先使用RSF算法对分子数据进行特征选择,识别与LUAD生存相关的候选基因(seed gene),然后对临床数据进行Cox单变量和多变量生存分析,鉴定出具有显著统计学意义的临床变量,最后在前向选择模型中引入临床结合候选基因数据,识别出LUAD预后关键基因。(3)LUAD预后关键基因的验证。LUAD的内部验证集和外部验证集完全独立,在两组验证集中分别使用预后关键基因构建生存风险评分系统,得到HR、p值和C-index等评价指标。实验结果表明,与传统的Cox模型以及使用单独的候选基因相比,本研究给出的方法有效提高了 LUAD预后预测的准确性(内部验证集:C-index=0.656;外部验证集:C-index=0.672),同时该模型也优于其它5种现有预测模型。(4)BRCA的风险预测研究。在BRCA训练集中,首先使用SMOTE(Synthetic Minority Over-sampling Technique)算法解决数据不平衡问题,其次利用RSF算法对处理后的分子数据进行特征选择,识别与BRCA生存相关的候选基因,然后对处理后的临床数据分别进行Cox单变量和多变量生存分析,鉴定具有统计学意义的临床变量,接着在前向选择模型中引入临床结合候选基因数据,识别出BRCA预后关键基因,最后使用BRCA原始验证集评估模型。实验结果表明,与使用原始的BRCA训练集数据相比,本研究给出的方法有效提高了 BRCA预后预测的准确性(C-index从0.667提高到0.702)。
其他文献
采用溶液-溶胶-凝胶法,从Sr(NO3)2-Ti(OC4H9)4-H2O-C2H5OH体系制备多层陶瓷电容器用的纳米SrTiO3粉体.用热重-差示扫描分析研究了由前驱体干凝胶形成纳米SrTiO3粉体的加热过程.用
目的比较两种联合用药方法治疗咯血的疗效与不良反应观察。方法72例患者随机分为治疗组(42例)和对照组(30例),分别给予垂体后叶素联合立止血、垂体后叶素联合硝酸甘油治疗,比较两
为研究GeSe2-As2Se3-CdSe系统的玻璃形成区,制备了该系统系列的透红外玻璃样品,并用差示扫描量热法对玻璃样品进行了测试.以玻璃析晶峰的形状以及玻璃析晶温度Tx与玻璃转变Tg