论文部分内容阅读
在人们的日常生产、生活中,由于数据本身或抽样过程中人为因素的影响,不平衡数据集是广泛存在的。在这些不平衡数据集中,数量比较稀少的少数类样本往往与一些异常且重要的情况关系比较密切。在很多现实应用中,传统方法对这些少数类样本进行有效分类、识别是比较困难的。集成学习作为目前数据挖掘领域中的一个重要研究分支,受到研究者的广泛关注。集成学习通过把多个子学习器集成起来对机器学习问题进行研究,显著提高学习系统的泛化能力,比传统单一的数据挖掘算法更有优势。本文的主要研究对象为不平衡数据的分类和聚类问题,把集成学习方法作为工具,分别从使用抽样技术对原始不平衡数据样本集的样本分布进行调整、从数据抽样技术与改进的算法相结合等方面出发,以提高不平衡数据集分类和聚类的性能为目标,围绕数据层面如何合理有效地调整样本分布、在算法层面对已有算法的参数进行优化改进,提出了一些改进的算法,本文的主要研究内容如下:(1)基于欠抽样技术的K-AdaBoost聚类集成算法结合AdaBoost算法和K-means技术,面向不平衡数据集提出了一种站于欠抽样的K-AdaBoost算法。算法首先使用基于K-means聚类的欠抽样技术,在不破坏多数类样本结构的基础上,减少多数类样本的数量,提高数据集的平衡度;其次,在新的训练样本集上再次应用K-means算法得到多个类簇,通过计算测试样本到各类簇中心的距离,基于相似度和各类簇对基学习器的权重进行加权组合,得到测试样本对各基学习器的权重;最后,按照权重把各基学习器组合成强学习器,最终对测试样本进行预测。(2)基于ADASYN的R-AdaBoost分类集成算法面向不平衡数据集提出了一种基于ADASYN的R-AdaBoost分类集成算法。首先,算法基于ADASYN技术生成m个合成样本,对原始数据集起到平衡作用;其次,使用基学习器对新的数据集进行分类并得到每个子分类器的分类结果。在对样本的权重值进行更新时,引入Focal Loss损失函数的思想,增加了难分类样本的权重;最后,使用AdaBoost算法对测试样本进行分类,得到最终的分类结果。(3)基于进化过抽样的EOS-Bagging集成学习算法面向不平衡数据集,基于改进的SMOTE抽样技术,提出了EOS-Bagging(Evolutionary Over-sampling)算法。首先,EOS-Bagging算法对原始数据集中的少数类样本进行随机过抽样;其次,基于SMOTE算法和遗传算法通过对新样本集中的少数类样本进行选择操作,交叉操作,变异操作,通过进化抽样获取一个新的数据集;最后,在算法层面上,结合Bagging集成学习框架,使用基学习器对包含合成样本的新数据集进行分类,实现对测试样本的分类结果预测。通过实验表明,论文提出的算法在处理不平衡数据集聚类和分类的性能上有所提高。