分类问题中的标签噪声研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhangShunsheng2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
标签噪声是分类任务中的重要问题之一.带有标签噪声的数据集会对分类器产生许多负面的影响,如分类器的预测性能会下降、模型的复杂度会增加等.近年来,处理这类问题的方法主要分为两个层面:一是算法层面,如构建对标签噪声稳健的分类器;二是数据层面,如将可能的标签噪声数据剔除或者改正.然而,基于算法层面的方法,一般是对某一传统分类器进行改进,缺乏通用性.基于数据层面的方法,与分类器独立,多数研究者认为处理后的数据可以更广泛地应用于各种数据场景.数据层面的噪声处理方法大致可以分为两种:噪声剔除和噪声修正.与噪声剔除方法相比较,噪声修正方法更合适.一方面直接将噪声数据移除,可能会导致数据中的重要信息流失;另一方面,在数据收集代价高昂的场景中,移除数据的损失太高.基于此,本文的研究工作以标签噪声的修正方法为主,具体如下:第一,对数据中的标签噪声率进行估计,将为标签的修正工作提供更多有益的信息.由于已有文献对标签噪声率的估计方法大多只适用于二分类问题,为此,本文进一步提出了一种新的估计标签噪声率的方法.其估计过程分为三步:第一步,借助kNN分类器,采用留一交叉验证,得到数据集中每个实例在各个类别下的概率;第二步,计算每个类别下实例的平均概率,将其设定为阈值以检测某实例是否为标签噪声;第三步,对潜在的标签噪声进行计数,计算其占比,即得到噪声率的估计值.该方法不仅适用于二分类问题,还适用于多分类问题.第二,现有的标签噪声修正算法往往单一使用监督学习方法和非监督学习方法.然而,这两种方法对数据的关注点不同,若能充分结合二者的特点,可以为标签噪声的修正工作提供更多有用的信息,进而提升数据中的标签噪声的修正准确度.因此,本文设计出了监督学习与非监督学习方法相结合的标签噪声修正算法.具体地,该标签噪声修正算法是基于kNN算法和K-means算法设计的.首先,对数据进行多轮聚类,借助多轮聚类后的结果,运用大多数投票原则估计样本标签;然后,结合标签噪声率的估计值,得到标签估计的可信度;最后,根据可信度,通过簇间投票,修正样本标签.本文选取了三种评价指标对提出的修正算法进行评价,分别为修正的准确度、模型的分类性能、AUC.实验结果表明,相比于已有的标签噪声修正算法,本文提出的修正算法能够更有效地更正错误的标签,提升数据的质量,从而使分类器得到更高的预测精度.
其他文献
文章论述了对高职院校中层干部执行力的要求:准确领会,明确目标;坚决果断,行动敏捷;目标管理,执行到位;团结协作,形成合力;勇于突破,开拓创新。探讨提升高职院校中层干部领导
从20世纪初期俄侨美术开始的哈尔滨水彩画传统,在经历了不同时期的演变后,到20世纪末期形成了以哈尔滨师范大学美术学院为基地,参与者众多、以写实手法为主、以对景写生为基
根据中国国家信息安全漏洞库CNNVD统计,对Web网站的黑客攻击约占所有网络攻击的70%以上。Web攻击可造成用户重要数据被窃取,甚至服务器被完全控制等后果,给用户带来巨大损失
应用能量守恒的基本原理,提供了一种针对落板破碎装置中凸轮曲线的结构优化的方法。该方法通过优化凸轮表面的结构曲线可以减小所需驱动力的峰值,达到减小升降气缸大小的目的
目前人工污秽试验中绝缘子染污采用均匀涂抹,而自然污秽受风力、雨水、绝缘子形状、污秽粒径等因素影响,在绝缘子表面非均匀累积,非均匀积污对绝缘子U50%产生影响,通过对多地
目前,利用专业三维建模软件很难实现虚拟现实所需要的交互性,同时,在OpenGL建立的虚拟现实环境中,也很难通过编程进行复杂的三维建模。因此通过研究比较现在常用的利用OpenGL创建
对于仅有部分数据带标签且标签含有噪声的二分类问题,提出了一类基于重要性重加权的半监督分类算法,借助贝叶斯公式和无约束最小二乘拟合进行标签噪声率的估计,并由此利用BP
文章用纳米ZnO粉体对非标柴油中的有害物质进行吸附去除。在投加粉体量为非标柴油质量20%,研磨时间为8h的条件下,氧化锌粉体能有效吸附非标柴油中有害物质,通过ICP分析发现,纳米Zn
2002年12月九届全国人大常委会第三十一次会议审议了《民法(草案)》,该草案共九编,《侵权责任法》为其第八编。6年后的2008年12月十一届全国人大常委会第六次会议审议了《侵
目的分析2型糖尿病应用芪精消渴汤结合二甲双胍治疗的疗效。方法选择该院2016年5月—2018年5月诊治的78例2型糖尿病患者,随机分成研究组(39例)和对照组(39例)。对照组使用二甲双