论文部分内容阅读
不平衡数据学习已经逐渐成为当前机器学习领域研究热点之一。在解决不平衡数据集的学习分类的问题时,需要尽可能大的提高分类器对少数类的预测精度,而且也要保证分类器的分类精度受到特别大的影响。本课题在对不平衡数据的特殊性的研究基础上,结合实际数据集中数据分布特性和数据各个属性的在分类过程中的作用,对目前常用于不平衡数据的重采样方法进行改进,有效的解决存在于传统方法中的不足,得到了新的重采样方法。为了确保对少数类的识别性能,对集成分类器进行相应的改进,最终得到一个针对不平衡数据集的完整的分类学习系统。首先,本课题提出了一种针对不平衡数据集的基于数据密度分布的欠采样方法。该算法引入数据密度的概念,并以此将多数类数据划分为高密度数据簇和低密度数据簇,针对不同密度的数据簇,执行不同的重采样策略,以达到改善数据平衡度的目的。实验通过选取6组UCI数据集进行验证,选取C4.5、SVM作为分类器,将该方法与随机欠采样、KNN-Near Miss等方法进行比较,实验结果表明,该方法对不平衡数据分类有较好的效果,能有效提升分类器对少数类的识别性能。其次,该方法通过研究不同属性对少数类样本识别的不同作用,将属性划分为显性属性、隐性属性。显性属性偏向于少数类,为少数类样本的识别提供可靠、充分的信息,隐形属性偏向于多数类,对少数类的识别形成干扰。因此,针对不同属性,采用不同复制策略,最终实现对合成少数类样本的样本质量提升。通过选取6组UCI数据集,与SMOTE、随机过采样等方法进行比较,实验结果表明,经过该方法重采样的不平衡数据集,其数据分类学习效果、少数类的识别率得到了提升。最后,为了进一步提高对不平衡数据集中少数类的识别率,对Databoost-IM方法进行深入研究,针对其过分强调难分样本的缺点,提出一种新的集成分类方法,该方法每次迭代时确定出难分样本中的种子样本,然后利用这些种子样本来生成合成数据,并添加到训练样本中进一步训练分类器,最终得到新的训练集去训练新的分类器。