论文部分内容阅读
癌症这一疾病类型一直以来都是人类身体健康和生命安全最主要的威胁之一,其发病率和死亡率与日俱增,已经成为人类主要的致死原因。因而很多医疗科研机构致力于癌症的研究,尤其是癌症的生存预测领域,准确率较高的生存预测具有重要的意义。乳腺癌在女性当中是常见的侵袭性肿瘤,其发病率也越来越高,所以建立用于乳腺癌预后判断的模型尤为重要。当前,已有关于乳腺癌生存预测的计算模型被提出,但很多研究是基于传统的回归方法或是基于单一的机器学习模型。本文围绕机器学习算法在乳腺癌生存预测的应用进行展开,为了将不同的单一机器学习模型在稳定性及准确性方面的优势有效结合到一起,将从机器学习组合模型的角度出发,展开研究。本文的研究是基于美国国立癌症研究所“监测、流行病学和预后计划”数据库(SEER)记录的2010-2015年间乳腺癌患者的临床诊疗数据。文章先对数据进行了预处理,删除了数据中的缺失值,并根据生存时间和生存状态确定出患者的五年生存情况,即存、亡两种状态。之后针对数据不平衡的问题采用欠抽样的方法使得两类样本基本平衡。本文选取支持向量机和Logistic回归算法构建两种单一模型,并根据实证结果进行了对比。首先研究了两种算法的理论知识,之后分别在训练集上学习得出五年生存情况预测模型,并在测试集上考察模型在准确率、召回率等指标上的表现,结果表明支持向量机要优于Logistic回归模型。组合模型的构建有两种方式:串行结构和并行结构。本文先将支持向量机和Logistic回归模型串行组合,具体地,把支持向量机预测的结果作为Logistic回归的输入变量,其他输入变量保持不变,并利用测试集计算该模型的各项评价指标。结果表明添加了该输入变量的模型较原来单一的Logistic模型在预测性能上有所提升。并行组合模型是利用两种单一模型的输出结果,分给赋予其不同的权重,组合成一个新的预测结果,并在所有给定的权重组合当中选择最优的组合。结果显示组合模型的预测性能要比两种单一模型表现更佳。两种组合模型当中,串行组合的各项分类指标优于所有给定权重下的并行组合。本文通过研究发现,在利用机器学习构建乳腺癌生存情况预测模型时,两种组合模型的预测效果优于两种单一模型,串行组合模型的预测效果优于并行组合。对于未来的癌症生存情况预测,在组合模型研究上,还可以利用不同的方法基于不同的单一模型构建组合模型,这为以后的研究提供了新的思路。