论文部分内容阅读
分类器组合是近十年来模式识别与机器学习领域最热门的研究方向之一.通过对训练样本的处理得到多个训练集,继而用一种分类算法(称作基本分类算法)训练出多个分类函数并加以组合的方法称为ensemble learning(国内有学者译作"系综学习").其中的代表有Adaboost,Bagging,Arcing等.当基本分类算法是不稳定分类算法的时候,上述方法得到的组合分类器能够大大提高分类正确率;但当基本分类算法已经是稳定分类算法时,这些方法几乎没有效果,甚至会导致识别率下降.该文的工作重点在于研究ensemble learning的新方法,目的是给出对稳定和不稳定的基本分类算法都有效的分类器组合方法.我们的工作受到一种组合多种分类算法的方法——Stacked Generalization(译作"层叠泛化")的启发.在Stacked Generalization的总体框架下,通过将训练样本的局部结构信息(近邻信息)融合到样本中去,逐步建立样本的高阶描述,从而构造多个训练样本集合.最后,利用这些样本集合训练出的多个分类函数以多数投票的方式组合起来.我们称这种方法为融合近邻信息的层叠泛化方法(Nearest-Neighbor-Ensemble-Stacked Generalization,NNES).论文从理论和实验两个方面分析、验证了新方法的有效性.利用研究分类器性能的理论工具——偏差、方差分解,论文试图证明给出的方法为什么会对稳定和不稳定的基本分类算法都有提高的作用.要指出的是,Stacked Generalization这一总体框架的有效性的理论研究是一个非常困难的课题,自从Wolpert于1992年提出Stacked Generalization以来还没有真正的突破,Wolpert本人甚至称Stacked Generalization的成功为black art(魔法).该文只对给出的具体算法做理论上的探索性的分析,结论并不对整体Stacked Generalization框架都有效.论文给出了大量的实验结果.通过在26个数据集合上的实验,验证了新方法既能改善不稳定基本分类器的性能,也可以提高稳定的基本分类器的识别率.同时,实验结果还显示新的方法优于其它一些常用的以Stacked Generalization为框架的分类器组合方法.