基于机器学习的肺腺癌预后研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wxa180395
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肺癌是世界上发病率和死亡率增长最快,对人类健康和生命威胁最大的恶性肿瘤之一,肺癌患者的发病率和死亡率在所有恶性肿瘤中都排在第一位。肺癌有许多不同的亚型,其中肺腺癌是影响肺部的最常见癌症类型,约占世界肺癌的40%。这么年来,尽管我们对肺腺癌的认识越来越高,但由于肺腺癌很难在早期确诊,且容易发生转移,因此预后状况很差,五年生存率约为21%。在这样的背景下,基于肺腺癌患者的全基因组数据,寻找肺腺癌患者预后生存相关的基因标志物并构建预后模型,能帮助医疗人员对肺腺癌患者进行更精准的治疗,改善肺腺癌患者的预后状况。在本文中,我们提出一个能预测癌症患者生存期的生物信息学分析方法。该方法利用机器学习技术,基于TCGA数据库中肺腺癌患者的全基因组数据,结合特征选择算法和分类算法来构建预测肺腺癌患者生存时间是否超过三年的联合预测模型。该模型能帮助医疗人员将不同的肺腺癌患者分到不同的危险组别中,进而能对不同的患者进行更个性化的治疗,改善患者的预后情况。本文的主要工作如下:(1)本文实验所使用的肺腺癌患者数据来源于TCGA数据库。我们通过官方网站下载整理得到肺腺癌患者的全基因组数据和临床数据,并对整理得到的数据进行缺省值填补、标准化等预处理工作,使之转化为机器学习模型更方便处理的形式。(2)我们基于肺腺癌患者的全基因组数据,结合差异表达基因筛选和SVMRFE特征选择算法,找到了与肺腺癌患者预后生存密切相关的特征基因集。之后我们以这些特征基因作为特征集,分别使用支持向量机,逻辑回归,K近邻、随机森林等机器学习算法来构建预测肺腺癌患者生存时间能否超过三年的预后模型。结果显示,所有预后模型的分类准确率都在80%以上,AUC值都在0.9左右。其中使用支持向量机算法构建的预后模型分类效果最好,分类准确率达到88%。(3)作为对比实验,我们基于肺腺癌患者的临床数据,以临床特征作为特征集,分别使用同样的四种机器学习算法来构建相应的预后模型,模型的分类准确率都在72%左右。通过对比分类结果可以得知,相对于临床信息,我们的联合预测模型,在预测肺腺癌患者预后问题上更有更好的分类效果,可以更好地帮助医疗人员将不同的肺腺癌患者分到不同的危险组别中,进而对不同患者分组进行更精准的治疗。
其他文献
在知识经济层面上,以图书馆办馆理念的转变、“知识系统工程”原理的指导、“市场营销”原理的引入作为持续发展理论框架,阐述文献资源构建持续发展的原则,提出服务管理水平的创
怪诞审美形态学评论方法,是通过怪诞实例的鉴选、分类、分析,归纳概括作家作品怪诞特色的研究策略。怪诞特色是内容、形式、功能三位一体的综合表现,怪诞实例的分类,可按照内
<正> 1453年(日本天文一二年)8月25日,一艘葡萄牙船飘流到了日本种子岛。万万没有想到的是,这一偶然事件,却给日本带来了莫大的文化冲旨,成为日本与西洋文明相接的一个里程碑
患儿男,20天.第1胎,足月顺产,生后无窒息,哭声响亮,体重 3.6kg.10天后患儿因双脚踝、跟部及小腿内侧出现数个直径约4mm皮疹,初为红色丘疹,渐 为脓疱,部分有少量分泌物,无发热