论文部分内容阅读
智慧医疗是医学和人工智能的交叉领域,是近年来国内外研究的热点领域之一。通过机器学习的手段可以非常有效的缓解医疗资源不足和患者就医需求日益增长之间的矛盾。乳腺癌是当今女性最大的威胁之一,作为一种异质性肿瘤,乳腺癌诊断涉及人口学信息、免疫学、生物化学等方面繁杂的因素,判断依据复杂多样。在乳腺癌实际临床诊断中由于不同病程阶段对患者采用不同检查手段,同一时间不同患者检查项目往往不同。上述情况为乳腺癌综合诊断模型构建带来了巨大的挑战。本文在研究多种分类器和融合方法的基础上,构建了基于多分类器多因素融合的渐进式综合诊断模型,主要工作如下:(1)针对乳腺癌涉及理化指标繁杂,表述方式多样的问题进行了数据特征提取与选择。结合相关医学文献和现有数据,选取血常规、血液肿瘤标志物、免疫组化三项医学检查数据,利用LASSO和随机森林算法选取其中关键性指标,并参考专业医学资料印证其正确性。(2)针对乳腺癌数据种类多样的特点,分析了随机森林、决策树、K近邻、支持向量机、逻辑回归、LSTM六种基分类模型优劣性、关键参数等相关特性。通过实验对比各模型在包含人口学信息的血常规、血液肿瘤标志物、免疫组化数据上的分类性能,结果显示血常规最优分类器为RF准确率77.59%,血液肿瘤标志物最优分类器为KNN准确率82.92%,免疫组化最优分类器为SVM准确率84.18%。(3)针对乳腺癌检查数据之间数据分布特征、评价方法不同的特点,采用了多分类器融合的策略。实验对比分析了三类融合算法:投票法、平均融合法和基于多准则决策(Multi-criteria Decision Making,MCDM)的融合算法,结果显示MCDM融合算法在不同数据集上准确率均高于其他两种策略。(4)针对乳腺癌诊断涉及检查种类(因素)多样,不同患者检查项目和时间不同的问题,本文提出了渐进式两级融合综合诊断模型。设计了分类器级融合和渐进式因素级融合的两级融合结构,实现分类器和因素种类的灵活增减提高模型可扩展性。同时增加渐进式机制使得模型在数据特征大量缺失时依然具有很高的准确率,具有良好的鲁棒性。基于上海某三甲医院真实数据进行实验,结果显示本模型在全特征输入情况下准确率达到91%,在特征大量缺失时比没有渐进式机制的模型准确率高10%以上。(5)渐进式乳腺癌诊断系统的构建。在提供诊断功能的同时还提供了相应的数据可视化服务,帮助医生更方便的对患者进行诊断。