标签噪声的集成学习研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：yyw953

【摘要】

：

集成学习,又称多分类器系统,尝试着训练多个不同的基分类器,通过协同合作来处理问题。作为机器学习的一个新的学习范式,集成学习的目的在于改善算法的泛化性能。然而,分类器

【作者】

：

苑成成

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2015年期

【关键词】

：

标签噪声集成学习基分类器提升方法随机森林投票去噪

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

集成学习,又称多分类器系统,尝试着训练多个不同的基分类器,通过协同合作来处理问题。作为机器学习的一个新的学习范式,集成学习的目的在于改善算法的泛化性能。然而,分类器的预测精度和泛化能力常常受到训练数据中标签噪声样本的影响。目前主要有两种有效的处理训练集中标签噪声的方法:一种是构建对标签噪声鲁棒的学习算法框架,一种是检测并清除数据集中的标签噪声样本。在本篇论文中,三个研究内容,应用集成学习方法,围绕着上面两种标签噪声处理方法展开。论文的主要研究内容内如下:(1)提出了一种基于Condensed Nearest Neighbor和集成的鲁棒学习方法框架。CNN方法作为一种基于实例选择的方法,旨在构建一个有效的训练子集,使其能代表整个训练集。算法利用Condensed Nearest Neighbors对标签噪声的敏感特性和其样本选择的特性,有效地构建噪声比例相对较少的多个训练数据子集,通过训练子集的差异性和低标签噪声率来训练得到鲁棒和有效的基分类器,最后对基分类器的学习结果进行集成组合。实验通过对比经典Bagging、AdaBoost和随机森林算法等集成学习方法,在处理不同噪声样本比例的数据集时,取得了更好的分类效果,展现了更强的标签噪声鲁棒性。(2)基于随机森林和数据集分块的集成去噪算法中,首先,利用随机森林方法对Majority Filtering算法做出了改进,以期训练得到的基分类器具有很好的噪声容忍特性。然后,算法进行多次随机的数据集分块,通过随机森林改进后的Majority Filtering算法检测出多个疑似标签噪声样本集,最终经过多数投票,决定出训练集中的标签噪声样本并进行剔除。实验表明,提出的算法可以检测出更多的标签噪声样本,较少地剔除标记正确的样本,证实了算法的有效性。(3)基于Majority Voting的改进AdaBoost标签噪声抑制算法中,针对AdaBoost算法对于噪声样本的敏感性,即噪声样本的权重会随着算法迭代次数的增加而增加,进而影响到样本子集的采样选取更倾向于噪声样本,导致基分类器的可信度低下。Majority Voting算法可以预先为训练集中的样本提供一个噪声置信度,该置信度可以作为AdaBoost算法中的噪声抑制因子,噪声的样本权重的增加会因为该置信度而受到抑制,使样本子集的选择更加倾向于非噪声样本,提高算法的鲁棒性,获取更高的分类性能。通过对比几个改进的AdaBoost算法,实验结果有着更好的分类预测精度,证明了样本权重更新策略的有效性。

其他文献

基于OpenCL的视频帧率上转换算法研究

帧率上转换是一种视频后处理技术,通过在原有视频帧中插入中间帧的方式,将低帧率视频转变成高帧率视频。随着高清2K视频逐渐在人们生活中得到普及,以及超高清4K视频的出现,极

学位

帧率上转换3DRS算法OpenCLGPU

EPON系统服务质量(QoS)模块设计实现

在过去的这些年里,通信骨干网络经历了大幅度的增长,传统的接入网技术已不能满足各种新业务的需求。以太网无源光网络(EPON)得到了越来越多的研究重视,它凭借以太网和无源光

学位

以太无源光网络服务质量业务等级协定动态带宽分配

引黄灌溉对水氮运移过程的影响与模拟

硝态氮污染至今仍是农业区水体中最为普遍的污染物之一。引黄灌溉保证了农业生产和农作物高产稳产，然而长期引黄灌溉对水氮运移具有重要影响。在高施肥和引黄灌溉的作用下，硝态

学位

黄河下游引黄灌溉水氮运移硝态氮污染地下水影响RZWQM2模拟

不同极化入射波与带微带线电路板的机箱的耦合研究

本文主要研究了电磁脉冲与腔体的耦合效应,由于其属于瞬态电磁学的研究领域,我们采用时域有限差分方法(FDTD)对计算机机箱进行数值模拟,其结果显示了电磁脉冲以及不同极化方

学位

时域有限差分方法孔缝耦合圆极化线极化微带线电路板

基于词向量和文本特征的事件提取

随着科学技术的飞速发展,各种媒体不断涌现,文本作为数据的一种载体,数量也日益增多,文本挖掘已成为研究领域的热点。目前,随着计算机技术的迅猛发展,如何让计算机学会并理解

学位

文本挖掘生物事件提取不平衡分类词向量

MEMS压阻式湿度传感器的结构分析与性能测试

针对易燃易爆恶劣环境，本课题设计并且制作了一种MEMS压阻型湿度传感器。论文着重对传感器的结构设计、工艺制作和性能测试进行了研究。本论文设计的压阻式湿度传感器的基

学位

湿度传感器压阻结构聚酰亚胺薄膜湿度敏感膜离子注入工艺

单分子磁体磁学性质的理论研究

　　由于超顺磁极限的存在,硬盘的信息存储量受到了很大的限制,近二十年来,一种有望把信息存储单元缩小到单个分子的磁性材料：单分子磁体(single-molecule magnets,SMMs受到了

学位

无线传感器网络跨层优化算法研究

无线传感器网络(WSN)是一种能够集实时进行数据采集、处理及通信功能于一体的分布式自组织网络。微电子、无线通信、微处理器等技术的进步,推动了无线传感器网络的产生和发展

学位

无线传感器网络分簇跨层多跳路由

稻瘟菌入侵的第一个水稻叶细胞表达谱分析

稻瘟菌（Magnaporthe oryzae）侵染水稻（Oryza sativa）引发的稻瘟病是水稻最严重的真菌性病害。本研究通过观察携带有组成型高表达AmCyan荧光蛋白的转基因稻瘟菌菌株ZB15-AmCyan侵

学位

水稻稻瘟菌亲和性互作非亲和性互作真菌性病害

中国耕地转型:空间与功能双重解构

以新古典经济学思想为指导的土地单功能利用，导致耕地需求无序竞争、耕地边际化与耕地生态系统退化长期持续存在。当前亟须探索实施耕地多功能管理，推动耕地沿城乡居民需求发展

学位

耕地转型土地利用空间调控多功能管理生态系统退化

标签噪声的集成学习研究

与本文相关的学术论文