论文部分内容阅读
标签噪声是分类任务中的重要问题之一.带有标签噪声的数据集会对分类器产生许多负面的影响,如分类器的预测性能会下降、模型的复杂度会增加等.近年来,处理这类问题的方法主要分为两个层面:一是算法层面,如构建对标签噪声稳健的分类器;二是数据层面,如将可能的标签噪声数据剔除或者改正.然而,基于算法层面的方法,一般是对某一传统分类器进行改进,缺乏通用性.基于数据层面的方法,与分类器独立,多数研究者认为处理后的数据可以更广泛地应用于各种数据场景.数据层面的噪声处理方法大致可以分为两种:噪声剔除和噪声修正.与噪声剔除方法相比较,噪声修正方法更合适.一方面直接将噪声数据移除,可能会导致数据中的重要信息流失;另一方面,在数据收集代价高昂的场景中,移除数据的损失太高.基于此,本文的研究工作以标签噪声的修正方法为主,具体如下:第一,对数据中的标签噪声率进行估计,将为标签的修正工作提供更多有益的信息.由于已有文献对标签噪声率的估计方法大多只适用于二分类问题,为此,本文进一步提出了一种新的估计标签噪声率的方法.其估计过程分为三步:第一步,借助kNN分类器,采用留一交叉验证,得到数据集中每个实例在各个类别下的概率;第二步,计算每个类别下实例的平均概率,将其设定为阈值以检测某实例是否为标签噪声;第三步,对潜在的标签噪声进行计数,计算其占比,即得到噪声率的估计值.该方法不仅适用于二分类问题,还适用于多分类问题.第二,现有的标签噪声修正算法往往单一使用监督学习方法和非监督学习方法.然而,这两种方法对数据的关注点不同,若能充分结合二者的特点,可以为标签噪声的修正工作提供更多有用的信息,进而提升数据中的标签噪声的修正准确度.因此,本文设计出了监督学习与非监督学习方法相结合的标签噪声修正算法.具体地,该标签噪声修正算法是基于kNN算法和K-means算法设计的.首先,对数据进行多轮聚类,借助多轮聚类后的结果,运用大多数投票原则估计样本标签;然后,结合标签噪声率的估计值,得到标签估计的可信度;最后,根据可信度,通过簇间投票,修正样本标签.本文选取了三种评价指标对提出的修正算法进行评价,分别为修正的准确度、模型的分类性能、AUC.实验结果表明,相比于已有的标签噪声修正算法,本文提出的修正算法能够更有效地更正错误的标签,提升数据的质量,从而使分类器得到更高的预测精度.