论文部分内容阅读
设计适合给定问题的核函数是支持向量机和核学习方法的核心问题。基于单核函数的支持向量机方法由于单核函数的格式固定和变化空间的相对狭小,使泛化能力和鲁棒性具有局限性。当前的支持向量机算法多以单一核函数为主,并不是对所有具体问题均适用。相比于单核函数,多核学习方法可以克服样本特征含有异构信息、样本规模巨大、多维数据的不规则或数据在高维特征空间分布不平坦的现象。通过对多核函数灵活的参数设计,可以改善泛化能力,是提高支持向量机性能的关键。肺结节识别是肺计算机辅助检测(ComputerAided Detections, CAD)系统的核心模块。肺结节识别算法的方法是去除候选肺结节感兴趣区域中的非结节区域,并尽量保证不漏检肺结节,所以对准确度和敏感度指标要求均较高。当前的肺结节识别方法以支持向量机为主,但均是采用了单一核函数,很难兼顾多个检测指标。论文主要研究目标为:多核学习方法与不同形式的支持向量机算法相结合,通过应用于肺结节识别,验证支持向量机中多核学习方法的有效性。具体内容如下:1.探索了一种基于混合核函数的支持向量机学习方法,用以进行肺结节的良恶性判断。通过五折交叉验证,基于最优准确度指标得到的最优参数组对测试集进行验证,得到混合核函数SVM算法的敏感度可达92.59%,准确度可达92%。与其他单核函数SVM方法相比,能较好地兼顾这两个指标,算法具有较高的鲁棒性及较强的肺结节识别能力。2. MatLSSVM算法允许以二维数字图像作为输入模式,提供了一种崭新的思路。将MatLSSVM算法应用于肺结节ROI图像的识别,实验共选取了40个肺结节疑似ROI,其中20个阳性样本,20个阴性(假阳)样本。MatLSSVM算法采用的是线性核函数,参数的选取采用网格搜索方法。选取交叉十折验证算法来寻求最优参数组,并得到识别结果:准确度可达97.5%,敏感度为100%,特异度结果为95%。结果表明,此时对真阳性结节的识别达到了不漏检,对真阴性检出率最高,总体检测效果最好。3.在MatLSSVM算法基础之上,提出多核学习矩阵化最小二乘支持向量机算法(Multiple Kernel Learning method based on Matrixing Least Squares SupportVector Machines, MKL-MatLSSVM),以解决非线性划分及二维输入模式的分类问题。通过对测试集进行最终测试,实验结果表明,MatLSSVM算法的敏感度可达90%,准确度可达93.13%,特异度也可达94.17%,三个指标均较优。并且当MKL-MatLSSVM算法的权系数及各个核参数取特定值时,涵盖了多种情形的核函数,且MatLSSVM算法为MKL-MatLSSVM算法的一种特例。将其与已有的经典算法进行比较,该算法的准确度指标也是最高的。此外,涵盖的混合核与RBF核情况的矩阵化最小二乘支持向量机算法所对应的ROC的面积也是最大的,验证了该算法的有效性。4.针对正负类样本不均衡的情况,加大了对正类样本的惩罚力度,而保留原有的负类样本的惩罚力度。在上面第1点混合核SVM算法的基础上,设计了代价敏感型的混合核SVM算法,通过对前面混合核SVM算法的比较,以及各种单一内核函数的代价敏感型SVM算法与传统SVM算法的实验结果比较,验证了本部分提出的代价敏感型混合核SVM算法对不均衡数据集的有效性,分别得到了较好的ACC指标和SEN指标,但是SPE指标并非所有核函数及所有算法中最优的,这也是牺牲了SPE指标换取了SEN指标的提升,与代价敏感型SVM算法的原理相符,即将分界面曲线平移,整体的分类效果不错。在肺结节识别中,由于临床中往往更加重视SEN指标,防止有了结节而未被检出,故将代价敏感型的混合核SVM算法应用在肺结节识别中,使得SEN指标有所提升,但可能导致SPE指标下降。通过对所受试者操作特征曲线等指标的比较,进一步验证了本文所提出的几种基于核学习的SVM方法及其衍生算法的可靠性与有效性。