论文部分内容阅读
非平衡数据集分类是近年来机器学习和模式识别领域研究的热点问题之一。在实际应用中这种非平衡数据分类问题很常见,如卫星图像检测油井喷发、罕见病例的医疗诊断、网络入侵检测、交易欺诈识别、恶意欠费识别等。因此,提高分类器在非平衡数据集上的分类性能和泛化能力具有重要价值和现实意义。由于非平衡数据集中类别数量上的严重倾斜和分布不均衡,基于传统的分类算法不太适合直接用来处理非平衡数据集。因此,人们在数据层面通过改变类分布状况和在算法层面通过改进算法提高分类性能两个角度进行改进,虽然分类性能得到了改进,但是正类的分类精度仍普遍较低。当前采用集成学习的方式对非平衡数据集进行研究,已经取得一定的成效,但是分类性能有待进一步提高。为解决上述问题,本文主要做了以下研究工作:受“最富信息”策略的启发,重点从关注错分的正类样本入手从数据层面和算法层面相结合的角度提出了集成学习改进方案一和方案二。其中方案一针对类别非平衡数据的分布特点先运用KSMOTE重抽样技术在特征空间中合成一定量的正类样本,在改善原始数据集的倾斜状况的基础上,采用上抽样KSMOTE和下抽样Bootstrap相结合的方式构建相对平衡的训练集。根据分类代价的不同分别赋予正负类样本不同的权值,然后在AdaBoost集成框架下以SVM作为弱分类器进行集成训练,从而达到更好的分类效果与泛化能力。通过在15个UCI数据集上将所提出的方案一与AdaBoostMI和ENSVM算法进行对比实验,证实了所提出的方案一在分类性能上优于AdaBoostMI和ENSVM。方案二则是以AdaBoost为主要框架,利用重抽样技术KSMOTE在特征空间合成分类困难的正类样本,根据分类代价的不同分别初始化正负类样本不同的权值,然后以SVM为弱分类器进行集成学习。在训练的过程中是在训练样本集的基础上应用KSMOTE重抽样技术在特征空间合成分类困难的正类样本集,而不是在训练初期应用KSMOTE改变原始非平衡数据集,而且通过在训练过程中每次循环时将前一步的误分类样本参与到当前训练步骤中,使得当前的SVM基分类器更加关注对前一轮分类器分类错误的正类样本进行分类,从而使得分类器在训练的过程中不断得到提升,最终得到分类性能较好的强分类器。在12个UCI数据集上将所提出的方案二与AdaBoostMI和ENSVM算法进行对比实验,证实了所提出的方案二的在分类性能上优于AdaBoostMI和ENSVM。但是方案一与方案二相比较而言,分类性能上没有较大差距。