论文部分内容阅读
癌症是目前威胁人类健康的重大疾病之一,其发病率和死亡率呈逐年上升趋势。预后是疾病治疗的一个重要指标,识别癌症的预后标志物能为精准靶向治疗提供帮助。本文以肺腺癌(LUAD,Lung Adenocarcinoma)和乳腺癌(BRCA,Breast Invasive Carcinoma)为例,研究肿瘤预后预测模型。本文给出了一种基于随机生存森林(RSF,Random Survival Forest)的改进肿瘤预后预测模型,该模型利用特征选择和前向选择算法识别出LUAD和BRCA的预后标志物,与传统方法相比有效的提高了 LUAD和BRCA的预后预测准确性,这会为精准靶向治疗提供有效支持。主要工作如下:(1)数据的收集和预处理。本文所用的分子测序数据和临床数据来源于TCGA和GEO数据库,通过预处理删除含有缺失值的临床样本和标准化分子数据,将临床样本和分子样本进行匹配以获得满足实验要求的数据。(2)LUAD预后关键基因的识别。在LUAD训练集中,首先使用RSF算法对分子数据进行特征选择,识别与LUAD生存相关的候选基因(seed gene),然后对临床数据进行Cox单变量和多变量生存分析,鉴定出具有显著统计学意义的临床变量,最后在前向选择模型中引入临床结合候选基因数据,识别出LUAD预后关键基因。(3)LUAD预后关键基因的验证。LUAD的内部验证集和外部验证集完全独立,在两组验证集中分别使用预后关键基因构建生存风险评分系统,得到HR、p值和C-index等评价指标。实验结果表明,与传统的Cox模型以及使用单独的候选基因相比,本研究给出的方法有效提高了 LUAD预后预测的准确性(内部验证集:C-index=0.656;外部验证集:C-index=0.672),同时该模型也优于其它5种现有预测模型。(4)BRCA的风险预测研究。在BRCA训练集中,首先使用SMOTE(Synthetic Minority Over-sampling Technique)算法解决数据不平衡问题,其次利用RSF算法对处理后的分子数据进行特征选择,识别与BRCA生存相关的候选基因,然后对处理后的临床数据分别进行Cox单变量和多变量生存分析,鉴定具有统计学意义的临床变量,接着在前向选择模型中引入临床结合候选基因数据,识别出BRCA预后关键基因,最后使用BRCA原始验证集评估模型。实验结果表明,与使用原始的BRCA训练集数据相比,本研究给出的方法有效提高了 BRCA预后预测的准确性(C-index从0.667提高到0.702)。