多分类器选择性集成方法研究及其应用

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:gellycgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用机器学习分析现实生活中的海量数据,从中得到的有用信息对人们的生产、生活都有很好地指导。而分类就是机器学习的重要任务之一。但现实生活中的数据往往存在纬度高、含有噪声等现象,严重影响力分类的精度和效率。如果使用传统的基分类器来分类,就难以达到很好的分类效果,且单一的基分类器在分类时的泛化能力不强,因此,想要有效处理现实生活中的分类问题,需要考虑构建一种性能良好的分类器,而将多个基分类器组合形成新的分类器就是一种很好的解决办法。本文以构建一种多分类器集成模型为目标,重点研究将多个基分类器进行集成,进而形成分类效果优异的强分类器的方法。本文的研究对提高分类器的分类准确度以及泛化能力具有一定的参考价值。本文在传统基分类器的基础之上,围绕多分类器集成模型和多分类器选择性集成模型进行研究,主要的内容和工作归纳如下:1.针对基础理论部分,探讨了四个方面的内容:1)数据预处理,主要是针对生活中数据具有分布不平衡、冗余、高维的特点导致分类效果不好,而考虑了数据的归一化、数据降维技术、不平衡数据的处理方法等。2)分类算法,分析了传统分类算法,包括:贝叶斯(Bayes)、支持向量机(SVM)、决策树、K近邻(KNN)、神经网络、随机森林。重点讲述了 SVM、KNN的优缺点。3)遗传算法,阐述了遗传算法的重要组成部分以及算法实现流程。4)分类算法的评价准则,介绍了准确率、精度、召回率、F1值的含义及相应的计算公式。2.针对多分类器集成部分,重点分析了 Bagging算法、Boosting算法、Stacking算法。得出基分类器中支持向量机的分类效果优于其他的基分类器,因此选用支持向量机作为基分类器,构建了 AdaBoost_SVM多分类器集成模型、Bagging_SVM多分类器集成模型。并选取了乳腺癌数据集、肝炎数据集、银行营销数据集、地震数据集、审计数据集进行实验,验证了两个多分类集成模型在分类问题上的性能。3.针对多分类器选择性集成部分,分析了多分类器集成模型可能存在时间复杂度高、空间复杂度大等缺点,因此,构建了多分类器选择性集成模型。给出GMDH算法实现差异性个体算法的实现流程,基于GMDH算法构建了差异性基分类器,并通过遗传算法对差异性基分类器进行优化,得到最终基于GMDH_GA的多分类器选择性集成模型。最后以相同的数据集验证算法的性能,实验结果表明GMDH_GA多分类器选择性集成模型在分类效果上明显优于AdaBoost_SVM多分类器集成模型、Bagging_SVM多分类器集成模型、GMDH模型。
其他文献
六安市建设农村文化礼堂意义重大。一方面,可以促进六安市当地农村地区经济的发展,以乡村文化振兴为契机,进而助力乡村振兴;另一方面,可以保护农村地区的优秀文化,传承中华文
给出了一种通用的旋转对称函数的构造方法,并研究了11元旋转对称函数的非线性度,给出了12元所有的3次RotS Bent函数,特别的,构造了12元上的一批4次RotS Bent函数.利用这些函数,可以
目的探讨慢病毒介导环状RNA mmu-circ-0001033过表达对低氧性小鼠肺动脉平滑肌细胞增殖的影响,为环状RNA防治低氧性肺动脉高压(HPH)提供实验依据。方法体外原代培养小鼠肺动
化学是一门以实验为基础的自然科学,实验就是化学的灵魂。中学化学趣味实验具有“有趣、简洁、生动、直观”的特点,能很好地激发学生的学习兴趣;其作为一种新的实验教学方式,
对馆藏航海《针簿》所载"落南各垵岙水势目录"作初步考释。经过与《东西洋考》、《郑和航海图》、《顺风相送》、《指南正法》等史料详加比对,表明《针簿·落南各垵岙水势目
在正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)通信系统中,无线信道的多径效应使信号在传输过程中失真和衰减,发射器和接收器之间的相对运动产生了多普勒效应,最终导致信号载波发生偏移。因此,了解信道特性非常重要。为了从已被噪声污染的信号中恢复原信号,传统的OFDM信道估计算法根据导频估计信道脉冲响应,然后通过插值和均衡恢复原信号。本论文尝
在当今时代,由于科技的飞速发展,现代人的娱乐方式越来越多样化,戏曲文化逐渐受到冷落,尤其是地方戏曲正面临失传,在生存与传承方面面临着巨大的困境与挑战,生存现状令人堪忧
<正> 第一节:七州洋与广州七州洋(一)过七州洋的海道七州洋既是海域又是海道。过七州洋的海道有好几条,风极顺利,历时六、七日乃得渡过。七州洋亦称七州大洋。时或简称“大洋