论文部分内容阅读
利用机器学习分析现实生活中的海量数据,从中得到的有用信息对人们的生产、生活都有很好地指导。而分类就是机器学习的重要任务之一。但现实生活中的数据往往存在纬度高、含有噪声等现象,严重影响力分类的精度和效率。如果使用传统的基分类器来分类,就难以达到很好的分类效果,且单一的基分类器在分类时的泛化能力不强,因此,想要有效处理现实生活中的分类问题,需要考虑构建一种性能良好的分类器,而将多个基分类器组合形成新的分类器就是一种很好的解决办法。本文以构建一种多分类器集成模型为目标,重点研究将多个基分类器进行集成,进而形成分类效果优异的强分类器的方法。本文的研究对提高分类器的分类准确度以及泛化能力具有一定的参考价值。本文在传统基分类器的基础之上,围绕多分类器集成模型和多分类器选择性集成模型进行研究,主要的内容和工作归纳如下:1.针对基础理论部分,探讨了四个方面的内容:1)数据预处理,主要是针对生活中数据具有分布不平衡、冗余、高维的特点导致分类效果不好,而考虑了数据的归一化、数据降维技术、不平衡数据的处理方法等。2)分类算法,分析了传统分类算法,包括:贝叶斯(Bayes)、支持向量机(SVM)、决策树、K近邻(KNN)、神经网络、随机森林。重点讲述了 SVM、KNN的优缺点。3)遗传算法,阐述了遗传算法的重要组成部分以及算法实现流程。4)分类算法的评价准则,介绍了准确率、精度、召回率、F1值的含义及相应的计算公式。2.针对多分类器集成部分,重点分析了 Bagging算法、Boosting算法、Stacking算法。得出基分类器中支持向量机的分类效果优于其他的基分类器,因此选用支持向量机作为基分类器,构建了 AdaBoost_SVM多分类器集成模型、Bagging_SVM多分类器集成模型。并选取了乳腺癌数据集、肝炎数据集、银行营销数据集、地震数据集、审计数据集进行实验,验证了两个多分类集成模型在分类问题上的性能。3.针对多分类器选择性集成部分,分析了多分类器集成模型可能存在时间复杂度高、空间复杂度大等缺点,因此,构建了多分类器选择性集成模型。给出GMDH算法实现差异性个体算法的实现流程,基于GMDH算法构建了差异性基分类器,并通过遗传算法对差异性基分类器进行优化,得到最终基于GMDH_GA的多分类器选择性集成模型。最后以相同的数据集验证算法的性能,实验结果表明GMDH_GA多分类器选择性集成模型在分类效果上明显优于AdaBoost_SVM多分类器集成模型、Bagging_SVM多分类器集成模型、GMDH模型。