论文部分内容阅读
肺癌是世界上发病率和死亡率增长最快,对人类健康和生命威胁最大的恶性肿瘤之一,肺癌患者的发病率和死亡率在所有恶性肿瘤中都排在第一位。肺癌有许多不同的亚型,其中肺腺癌是影响肺部的最常见癌症类型,约占世界肺癌的40%。这么年来,尽管我们对肺腺癌的认识越来越高,但由于肺腺癌很难在早期确诊,且容易发生转移,因此预后状况很差,五年生存率约为21%。在这样的背景下,基于肺腺癌患者的全基因组数据,寻找肺腺癌患者预后生存相关的基因标志物并构建预后模型,能帮助医疗人员对肺腺癌患者进行更精准的治疗,改善肺腺癌患者的预后状况。在本文中,我们提出一个能预测癌症患者生存期的生物信息学分析方法。该方法利用机器学习技术,基于TCGA数据库中肺腺癌患者的全基因组数据,结合特征选择算法和分类算法来构建预测肺腺癌患者生存时间是否超过三年的联合预测模型。该模型能帮助医疗人员将不同的肺腺癌患者分到不同的危险组别中,进而能对不同的患者进行更个性化的治疗,改善患者的预后情况。本文的主要工作如下:(1)本文实验所使用的肺腺癌患者数据来源于TCGA数据库。我们通过官方网站下载整理得到肺腺癌患者的全基因组数据和临床数据,并对整理得到的数据进行缺省值填补、标准化等预处理工作,使之转化为机器学习模型更方便处理的形式。(2)我们基于肺腺癌患者的全基因组数据,结合差异表达基因筛选和SVMRFE特征选择算法,找到了与肺腺癌患者预后生存密切相关的特征基因集。之后我们以这些特征基因作为特征集,分别使用支持向量机,逻辑回归,K近邻、随机森林等机器学习算法来构建预测肺腺癌患者生存时间能否超过三年的预后模型。结果显示,所有预后模型的分类准确率都在80%以上,AUC值都在0.9左右。其中使用支持向量机算法构建的预后模型分类效果最好,分类准确率达到88%。(3)作为对比实验,我们基于肺腺癌患者的临床数据,以临床特征作为特征集,分别使用同样的四种机器学习算法来构建相应的预后模型,模型的分类准确率都在72%左右。通过对比分类结果可以得知,相对于临床信息,我们的联合预测模型,在预测肺腺癌患者预后问题上更有更好的分类效果,可以更好地帮助医疗人员将不同的肺腺癌患者分到不同的危险组别中,进而对不同患者分组进行更精准的治疗。