论文部分内容阅读
乳腺癌是一种对女性身体和心理健康都会产生严重危害的常见的恶性肿瘤,目前在乳腺癌的临床诊断方法中,影像诊断是最适合适龄女性的乳腺癌早期诊断方法,但是医生肉眼很难发现医学图像中的隐匿信息。随着互联网的迅猛发展,在线医疗诊断成为必然,对海量医学图像使用高效的数据挖掘方法进行快速的诊断和鉴别,提高医学图像分类准确率,尽量避免发生医生误判,提高医生的工作效率已经成为计算机辅助医疗诊断的重要研究领域。本文主要从数据挖掘的角度,研究多类别分类方法、多核支持向量机、有向无环图多核支持向量机以及基于分布式模式下的节点选择有向无环图多核支持向量机,并将它们分别应用于医学图像挖掘。本文所做的主要工作如下:(1)提出了样本加权合成多核多类别分类方法。通过单个核函数对样本的拟合以及适应能力,对每一个核函数进行加权,从而得到本文的基于样本加权的合成多核决策函数,使用一种固定的样本学习方法获得每一个单核函数的加权权重系数,克服了单个核函数在一些繁杂的情况下组成的核方法并不能完全适应如数据出现异构或者数据不规则、样本数量庞大、样本的分布不均匀等实际应用中的需求问题。将多个核函数按照一定的方法进行组合,以期望得到较好的分类结果是今后的发展趋势。将新算法分别在多组UCI机器学习标准数据集和MIAS乳腺X光医学图像标准数据集上做分类实验,实验结果表明与传统的单核多类别分类方法以及多核多类别分类方法相比,新方法具有较高的分类准确率。(2)提出了基于节点选择的样本加权合成多核多类别分类方法。由于对于N类别分类问题,有向无环图样本加权合成多核支持向量机(Directed Acyclic Graph Weighted Summation Multi-Kernel Support Vector Machine,DAG-WSMKSVM)会构造N*(N-1)/2个样本加权合成多核支持向量机分类器(为每两个类构造一个样本加权合成多核支持向量机),然而有向无环图样本加权合成多核支持向量机可能出现由于节点选择不佳导致整个分类器最终分类结果较差的情况。针对以上问题,本文提出的基于节点选择优化的有向无环图样本加权合成多核支持向量机(Nodes Selection optimization Directed Acyclic Graph Weighted Summation Multi-Kernel Support Vector Machine,NSDAG-WSMKSVM)),通过为每一层建立备选节点集合进行节点选择,选取下层备选节点集合中训练分类准确率最高的一个节点组合作为当前层节点的下层节点,从而优化有向无环图样本加权合成多核支持向量机的拓扑结构,获得较好的训练和分类效果。实验结果表明,与已有的方法相比,本文提出的方法对于UCI数据集以及多类别MIAS乳腺X光医学图像分类问题的分类准确率有明显提高。(3)提出了基于分布式模式下的节点选择有向无环图样本加权合成多核支持向量机方法。针对基于节点选择有向无环图样本加权合成多核支持向量机分类方法的不足,面对多用户在线同步诊断的效率问题,以及提升该方法的时效性问题,本文对基于节点选择优化的有向无环图样本加权合成多核支持向量机分类方法进行了改进,在MapReduce编程模型基础上,得到基于分布式模式下节点选择有向无环图样本加权合成多核支持向量机分类方法,并应用到多类别MIAS乳腺X光医学图像分类问题上,取得了良好的效果。