LibD3C2.0:基于聚类的集成分类器与并行化实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zeus2040
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习的主要思想是融合多个分类学习算法的分类性能来提高整体分类算法的泛化能力。构建一个具有多样性/差异度大的弱分类学习算法集合是集成学习取得高泛化能力的关键。对于弱分类器的构建的直观的想法是构建大量的弱分类器,以获得更强的泛化性能。然而大量的弱分类器对现有的计算和存储能力.:提出了更高的要求,同时弱分类器的差异性也难以获得。针对此问题,周志华等人提出的选择性集成理论指出集成小规模的弱分类器就可以得到预测性能更优的集成分类器,理论分析和实验表明,该方法能够取得比Boosting和Bagging等传统的集成学习算法更好的泛化性能。本文在深入学习选择性集成分类器的基础上,从集成分类器的弱分类器构建、分类器候选子集的选择以及弱分类器的集成等方面进行了相关研究。(1)弱分类器的生成阶段:考虑原始数据集的分布特征,提出了对原始数据集进行数据子集切分和特征子集切分的方式,使用切分后的训练集训练分类器。保证弱分类器预测性能同时构建出更具多样性的弱分类器集合。(2)弱分类器候选子集选择阶段:选用一种合适的差异性度量方式,通过聚类算法,从弱分类器集合中选择预测能力高并且相互之间差异度最大的候选子集,进行下一阶段的分类器集成。(3)弱分类器集成阶段:采取改进的动态选择与循环集成框架,对候选弱分类器子集进行集成,在保证分类器的集成性能的同时避免使用枚举弱分类器时的组合爆炸问题。(4)此外,本文还研究了在需要生成大量弱分类器时带来的问题,设计了并行化的弱分类器训练和弱分类器子集选择算法,同时实现了集成分类器的通用算法框架LibD3C2.0。
其他文献
随着物联网、遥感、地理信息、大数据、云计算等新技术和手段在森林火灾动态监测方面的广泛应用,多源、异构、高维及海量的监测数据呈爆炸式增长。传统的监测方法在过去很长一
科学计算可视化是指运用计算机图形学等知识,将数据以直观的形式表现出来,于20世纪80年代后期被提出并得到了迅速发展。目前,它广泛应用于各种领域,例如医学、气象预报、分子
近年来,随着数字媒体技术和信息技术的不断发展更新,不仅为数字媒体包括数字图像的产生、制作和传播提供了便利,更使得数字媒体的编辑、复制和篡改更为容易,这就导致数字图像
随着时代的发展,科学技术和劳动者素质成为社会发展的一个重要因素,发展高等教育成为推动科技进步,提高劳动者素质的一个必然选择。现代信息技术的普遍应用推动了教学模式、教学
随着移动互联网的飞速发展及智能手机等移动电子设备的普及,自然场景图像的获取和传输变得越来越便捷。自然场景图像中的文本包含了丰富的信息,人们期待计算机能代替人类自动
随着生活中多彩多样的娱乐、学习、工作等需求的不断发展,视频需求蓬勃兴起,视频服务相关应用的爆炸式发展已经开始主导网络技术的演化与变革。据Cisco预测,截至2018年,移动
云计算技术的兴起和快速发展,使用户可以将海量图像数据存储到云服务器。这样不但可以减轻用户的存储和管理负担,而且能为用户提供便捷的数据访问服务。但云服务器并不是完全可
随着网络技术和计算机技术的快速发展,电子文档成为日常学习和工作中不可或缺的资料。数学表达式作为许多电子文档重要的组成部分,如何将其输入到计算机中是亟待解决的问题。早
随着智能电网建设的快速发展,电力系统设备种类和数量越来越多,对电力设备图像的特征提取和准确分类,有利于提升电力系统管理的自动化和智能化水平。本文首先对从现场采集到的电
目前,每年生物医学文献的数量正在呈指数的方式增长,科研人员为了得到好的研究成果,需要查找阅读大量的文献,但如此大规模的文献,给科研人员带来了巨大的困难。同时,现代科学