论文部分内容阅读
在实际的应用中,人们更加关心的是不平衡数据集中的少数类样本及其被误分所带来的损失。这使得在不平衡数据的分类学习中,研究如何提高少数类的分类性能具有重大的现实意义。过抽样算法是对少数类样本人为地增加其数目以达到整个数据集趋于平衡的方法。典型的过抽样算法为2002年由Chawla等人提出的SMOTE(Synthetic Minority Over-sampling Technique)算法,其基本思想是通过少数类样本同类之间的线性插值,合成新的同类样本以达到平衡数据集分布的目的。然而,SMOTE算法却忽略了靠近分类边界的样本以及孤立点对少数类分类性能的影响。鉴于此,HanHui等人提出的Borderline-SMOTE算法在SMOTE算法的基础上做了改进。其基本思想为仅仅使用少数类样本中的边界样本进行新样本的合成。该算法虽然在一定程度上提高了少数类样本的分类性能,但由于忽略了安全样本和孤立点,故在分类性能的提高上存在一定的局限性。为了提高少数类样本的识别率,本文在BSMOTE算法的基础上增加了对孤立点和安全样本的处理,并在采样倍率的设置和合成规则的处理上做了改进,提出了NSMOTE算法。NSMOTE算法首先采用“分而治之”的思想把训练集中的少数类样本归为三类:边界样本、孤立点及安全样本;然后,对三类样本分别进行处理合成新的样本;最后,把合成的新样本和原始数据集归并为新的训练集,并采用Biased-SVM分类算法对其进行建模学习。数据实验结果表明,该算法在提高不平衡数据集整体分类性能的同时有效的提高了少数类的分类性能。