基于机器学习组合模型的乳腺癌生存预测

来源 :山东大学 | 被引量 : 0次 | 上传用户:stern_pea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症这一疾病类型一直以来都是人类身体健康和生命安全最主要的威胁之一,其发病率和死亡率与日俱增,已经成为人类主要的致死原因。因而很多医疗科研机构致力于癌症的研究,尤其是癌症的生存预测领域,准确率较高的生存预测具有重要的意义。乳腺癌在女性当中是常见的侵袭性肿瘤,其发病率也越来越高,所以建立用于乳腺癌预后判断的模型尤为重要。当前,已有关于乳腺癌生存预测的计算模型被提出,但很多研究是基于传统的回归方法或是基于单一的机器学习模型。本文围绕机器学习算法在乳腺癌生存预测的应用进行展开,为了将不同的单一机器学习模型在稳定性及准确性方面的优势有效结合到一起,将从机器学习组合模型的角度出发,展开研究。本文的研究是基于美国国立癌症研究所“监测、流行病学和预后计划”数据库(SEER)记录的2010-2015年间乳腺癌患者的临床诊疗数据。文章先对数据进行了预处理,删除了数据中的缺失值,并根据生存时间和生存状态确定出患者的五年生存情况,即存、亡两种状态。之后针对数据不平衡的问题采用欠抽样的方法使得两类样本基本平衡。本文选取支持向量机和Logistic回归算法构建两种单一模型,并根据实证结果进行了对比。首先研究了两种算法的理论知识,之后分别在训练集上学习得出五年生存情况预测模型,并在测试集上考察模型在准确率、召回率等指标上的表现,结果表明支持向量机要优于Logistic回归模型。组合模型的构建有两种方式:串行结构和并行结构。本文先将支持向量机和Logistic回归模型串行组合,具体地,把支持向量机预测的结果作为Logistic回归的输入变量,其他输入变量保持不变,并利用测试集计算该模型的各项评价指标。结果表明添加了该输入变量的模型较原来单一的Logistic模型在预测性能上有所提升。并行组合模型是利用两种单一模型的输出结果,分给赋予其不同的权重,组合成一个新的预测结果,并在所有给定的权重组合当中选择最优的组合。结果显示组合模型的预测性能要比两种单一模型表现更佳。两种组合模型当中,串行组合的各项分类指标优于所有给定权重下的并行组合。本文通过研究发现,在利用机器学习构建乳腺癌生存情况预测模型时,两种组合模型的预测效果优于两种单一模型,串行组合模型的预测效果优于并行组合。对于未来的癌症生存情况预测,在组合模型研究上,还可以利用不同的方法基于不同的单一模型构建组合模型,这为以后的研究提供了新的思路。
其他文献
目的探讨长链非编码RNA(Lnc RNA)BCYRN1在胶质瘤中的表达程度,以及对胶质瘤细胞系增殖、凋亡、侵袭和迁移能力的影响。进而研究其可能存在的生物学机制,为胶质瘤在临床上的诊
药物咨询服务是现代药学工作中的重要组成部分,如何快速、准确、系统地进行临床用药咨询,对临床合理用药有着重要的意义[1]。随着医院HIS系统的普及,医生工作站也得到了广泛
目的:研究依达拉奉联合奥扎格雷钠在脑梗死中的应用。方法:将我院收治的58例脑梗死病人进行随机分配,各29例,实验组应用依达拉奉联合奥扎格雷钠治疗,对照组应用血塞通治疗,比较
文章利用2010-2015年沪深A股10767个样本观测值对相对业绩评价在中国上市公司高管薪酬合约中的实施情况进行验证,实证结果表明相对业绩评价在我国上市公司中得到了广泛使用,
开展日本羽毛球女子双打运动员技战术运用特征研究,其目的就是为更好的促进我国羽毛球女子双打竞技实力的不断发展与提升。当前,日本羽毛球女子双打竞技实力突出,不仅有4对运
中国和越南山水相连,越南人学习汉语的历史也可追溯到千年以前,许多越南人将汉字视为“圣贤字”。随着全球化趋势加强,现代的中越关系愈加紧密,学习汉语的越南人日渐增多。笔者有幸在越南顺化外国语大学实习了近10个月,期间收集了大量越南大学生的汉字书写语料,经过分析汉字的偏误情况提出了具有针对性的教学策略。本文共有六个章节。第一章是绪论,主要介绍了本篇论文的选题缘起和意义、研究背景、研究现状、研究目的及方法
随着我国交通路网的快速发展,软岩隧道的建设日趋增多。近年来,由于软弱围岩的特殊性,使得软岩隧道贯通段施工过程中出现围岩变形过大的现象,进而影响隧道施工进度、威胁施工