论文部分内容阅读
不平衡数据在实际应用中广泛存在,如何从不平衡数据中学习并获得分类器成为了当前机器学习研究领域的一个热点。该方面的研究已经取得了一定的成果,并在入侵检测、信用卡交易和基因编码信息发现等应用领域得到了广泛的应用。已有的针对均衡数据或代价不敏感的分类器评价准则对不平衡数据不再适合,因为不平衡数据的分类器更关注少数的分类精度。针对不平衡数据的分类问题,研究者侧重从数据层面、算法层面和评价准则等三个方面展开研究,取得了一定的进展。在已有的针对不平衡数据的分类学习方法中,支持向量机(SVM)的变种成了主流的方法之一,如:结构化不平衡支持向量机(StASVM),该模型是在不平衡支持向量机(ASVM)的基础上,引入数据类内结构先验信息,有效地提高了分类器的性能。本文以StASVM模型为基础,结合集成学习方法,提出了基于结构化支持向量机的集成学习,主要工作如下:1.提出了基于StASVM的集成算法(EStASVM)。对大类样本进行聚类并进行基于聚类的欠采样,进而构建多个子分类器,从而设计出子分类器的集成算法,其中欠采样可有效地降低类别的不平衡性。实验表明,集成方法能够有效地提高算法的稳定性和分类性能。2.提出了基于随机子空间、特征选择和StASVM的集成算法(RsStASVM)。该算法为从数据集的特征空间随机采样出发,生成多个新的样本特征空间,进而诱导出多个子分类器,从而设计出子分类器的集成算法。实验表明,该方法对不平衡数据的分类,尤其能有效改进高维数据的分类性能。3.设计了一种基于代价敏感及AdaBoost的集成算法(AdaStASVM)。为进一步改进EStASVM和RsStASVM未能充分利用样本固有隐含信息的不足,AdaStASVM算法先对大类样本进行聚类,依据聚类结果对样本进行初始加权,并采用Adaboost算法思想对样本的权进行动态调整,侧重增大小类的错分样本的权值。实验表明,该算法可进一步改进EStASVM和RsStASVM的分类性能。