标签噪声的集成学习研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yyw953
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习,又称多分类器系统,尝试着训练多个不同的基分类器,通过协同合作来处理问题。作为机器学习的一个新的学习范式,集成学习的目的在于改善算法的泛化性能。然而,分类器的预测精度和泛化能力常常受到训练数据中标签噪声样本的影响。目前主要有两种有效的处理训练集中标签噪声的方法:一种是构建对标签噪声鲁棒的学习算法框架,一种是检测并清除数据集中的标签噪声样本。在本篇论文中,三个研究内容,应用集成学习方法,围绕着上面两种标签噪声处理方法展开。论文的主要研究内容内如下:(1)提出了一种基于Condensed Nearest Neighbor和集成的鲁棒学习方法框架。CNN方法作为一种基于实例选择的方法,旨在构建一个有效的训练子集,使其能代表整个训练集。算法利用Condensed Nearest Neighbors对标签噪声的敏感特性和其样本选择的特性,有效地构建噪声比例相对较少的多个训练数据子集,通过训练子集的差异性和低标签噪声率来训练得到鲁棒和有效的基分类器,最后对基分类器的学习结果进行集成组合。实验通过对比经典Bagging、AdaBoost和随机森林算法等集成学习方法,在处理不同噪声样本比例的数据集时,取得了更好的分类效果,展现了更强的标签噪声鲁棒性。(2)基于随机森林和数据集分块的集成去噪算法中,首先,利用随机森林方法对Majority Filtering算法做出了改进,以期训练得到的基分类器具有很好的噪声容忍特性。然后,算法进行多次随机的数据集分块,通过随机森林改进后的Majority Filtering算法检测出多个疑似标签噪声样本集,最终经过多数投票,决定出训练集中的标签噪声样本并进行剔除。实验表明,提出的算法可以检测出更多的标签噪声样本,较少地剔除标记正确的样本,证实了算法的有效性。(3)基于Majority Voting的改进AdaBoost标签噪声抑制算法中,针对AdaBoost算法对于噪声样本的敏感性,即噪声样本的权重会随着算法迭代次数的增加而增加,进而影响到样本子集的采样选取更倾向于噪声样本,导致基分类器的可信度低下。Majority Voting算法可以预先为训练集中的样本提供一个噪声置信度,该置信度可以作为AdaBoost算法中的噪声抑制因子,噪声的样本权重的增加会因为该置信度而受到抑制,使样本子集的选择更加倾向于非噪声样本,提高算法的鲁棒性,获取更高的分类性能。通过对比几个改进的AdaBoost算法,实验结果有着更好的分类预测精度,证明了样本权重更新策略的有效性。
其他文献
帧率上转换是一种视频后处理技术,通过在原有视频帧中插入中间帧的方式,将低帧率视频转变成高帧率视频。随着高清2K视频逐渐在人们生活中得到普及,以及超高清4K视频的出现,极
在过去的这些年里,通信骨干网络经历了大幅度的增长,传统的接入网技术已不能满足各种新业务的需求。以太网无源光网络(EPON)得到了越来越多的研究重视,它凭借以太网和无源光
硝态氮污染至今仍是农业区水体中最为普遍的污染物之一。引黄灌溉保证了农业生产和农作物高产稳产,然而长期引黄灌溉对水氮运移具有重要影响。在高施肥和引黄灌溉的作用下,硝态
本文主要研究了电磁脉冲与腔体的耦合效应,由于其属于瞬态电磁学的研究领域,我们采用时域有限差分方法(FDTD)对计算机机箱进行数值模拟,其结果显示了电磁脉冲以及不同极化方
随着科学技术的飞速发展,各种媒体不断涌现,文本作为数据的一种载体,数量也日益增多,文本挖掘已成为研究领域的热点。目前,随着计算机技术的迅猛发展,如何让计算机学会并理解
针对易燃易爆恶劣环境,本课题设计并且制作了一种MEMS压阻型湿度传感器。论文着重对传感器的结构设计、工艺制作和性能测试进行了研究。 本论文设计的压阻式湿度传感器的基
  由于超顺磁极限的存在,硬盘的信息存储量受到了很大的限制,近二十年来,一种有望把信息存储单元缩小到单个分子的磁性材料:单分子磁体(single-molecule magnets,SMMs受到了
学位
无线传感器网络(WSN)是一种能够集实时进行数据采集、处理及通信功能于一体的分布式自组织网络。微电子、无线通信、微处理器等技术的进步,推动了无线传感器网络的产生和发展
稻瘟菌(Magnaporthe oryzae)侵染水稻(Oryza sativa)引发的稻瘟病是水稻最严重的真菌性病害。本研究通过观察携带有组成型高表达AmCyan荧光蛋白的转基因稻瘟菌菌株ZB15-AmCyan侵
以新古典经济学思想为指导的土地单功能利用,导致耕地需求无序竞争、耕地边际化与耕地生态系统退化长期持续存在。当前亟须探索实施耕地多功能管理,推动耕地沿城乡居民需求发展