论文部分内容阅读
集成学习,又称多分类器系统,尝试着训练多个不同的基分类器,通过协同合作来处理问题。作为机器学习的一个新的学习范式,集成学习的目的在于改善算法的泛化性能。然而,分类器的预测精度和泛化能力常常受到训练数据中标签噪声样本的影响。目前主要有两种有效的处理训练集中标签噪声的方法:一种是构建对标签噪声鲁棒的学习算法框架,一种是检测并清除数据集中的标签噪声样本。在本篇论文中,三个研究内容,应用集成学习方法,围绕着上面两种标签噪声处理方法展开。论文的主要研究内容内如下:(1)提出了一种基于Condensed Nearest Neighbor和集成的鲁棒学习方法框架。CNN方法作为一种基于实例选择的方法,旨在构建一个有效的训练子集,使其能代表整个训练集。算法利用Condensed Nearest Neighbors对标签噪声的敏感特性和其样本选择的特性,有效地构建噪声比例相对较少的多个训练数据子集,通过训练子集的差异性和低标签噪声率来训练得到鲁棒和有效的基分类器,最后对基分类器的学习结果进行集成组合。实验通过对比经典Bagging、AdaBoost和随机森林算法等集成学习方法,在处理不同噪声样本比例的数据集时,取得了更好的分类效果,展现了更强的标签噪声鲁棒性。(2)基于随机森林和数据集分块的集成去噪算法中,首先,利用随机森林方法对Majority Filtering算法做出了改进,以期训练得到的基分类器具有很好的噪声容忍特性。然后,算法进行多次随机的数据集分块,通过随机森林改进后的Majority Filtering算法检测出多个疑似标签噪声样本集,最终经过多数投票,决定出训练集中的标签噪声样本并进行剔除。实验表明,提出的算法可以检测出更多的标签噪声样本,较少地剔除标记正确的样本,证实了算法的有效性。(3)基于Majority Voting的改进AdaBoost标签噪声抑制算法中,针对AdaBoost算法对于噪声样本的敏感性,即噪声样本的权重会随着算法迭代次数的增加而增加,进而影响到样本子集的采样选取更倾向于噪声样本,导致基分类器的可信度低下。Majority Voting算法可以预先为训练集中的样本提供一个噪声置信度,该置信度可以作为AdaBoost算法中的噪声抑制因子,噪声的样本权重的增加会因为该置信度而受到抑制,使样本子集的选择更加倾向于非噪声样本,提高算法的鲁棒性,获取更高的分类性能。通过对比几个改进的AdaBoost算法,实验结果有着更好的分类预测精度,证明了样本权重更新策略的有效性。