融合近邻信息的层叠泛化方法

来源 :北京大学 | 被引量 : 0次 | 上传用户:beefshen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类器组合是近十年来模式识别与机器学习领域最热门的研究方向之一.通过对训练样本的处理得到多个训练集,继而用一种分类算法(称作基本分类算法)训练出多个分类函数并加以组合的方法称为ensemble learning(国内有学者译作"系综学习").其中的代表有Adaboost,Bagging,Arcing等.当基本分类算法是不稳定分类算法的时候,上述方法得到的组合分类器能够大大提高分类正确率;但当基本分类算法已经是稳定分类算法时,这些方法几乎没有效果,甚至会导致识别率下降.该文的工作重点在于研究ensemble learning的新方法,目的是给出对稳定和不稳定的基本分类算法都有效的分类器组合方法.我们的工作受到一种组合多种分类算法的方法——Stacked Generalization(译作"层叠泛化")的启发.在Stacked Generalization的总体框架下,通过将训练样本的局部结构信息(近邻信息)融合到样本中去,逐步建立样本的高阶描述,从而构造多个训练样本集合.最后,利用这些样本集合训练出的多个分类函数以多数投票的方式组合起来.我们称这种方法为融合近邻信息的层叠泛化方法(Nearest-Neighbor-Ensemble-Stacked Generalization,NNES).论文从理论和实验两个方面分析、验证了新方法的有效性.利用研究分类器性能的理论工具——偏差、方差分解,论文试图证明给出的方法为什么会对稳定和不稳定的基本分类算法都有提高的作用.要指出的是,Stacked Generalization这一总体框架的有效性的理论研究是一个非常困难的课题,自从Wolpert于1992年提出Stacked Generalization以来还没有真正的突破,Wolpert本人甚至称Stacked Generalization的成功为black art(魔法).该文只对给出的具体算法做理论上的探索性的分析,结论并不对整体Stacked Generalization框架都有效.论文给出了大量的实验结果.通过在26个数据集合上的实验,验证了新方法既能改善不稳定基本分类器的性能,也可以提高稳定的基本分类器的识别率.同时,实验结果还显示新的方法优于其它一些常用的以Stacked Generalization为框架的分类器组合方法.
其他文献
本文通过对荣华二采区10
期刊
传统的通信系统都是基于Shannon编码理论的,即信源编码和信道编码分开进行。这种通信系统不能化解信源编码和信道编码的固有矛盾,即信源编码要降低冗余与信道编码要增加冗余之
随着数字电视技术的发展和推广,节目制作逐渐向数字化方向转变,这使得MPEG-2的应用也更加广泛.MPEG-2是MPEG(Moving Picture Experts Group)开发的第二个标准,全称是"活动图
本文研究了施氏鲟幼鱼消化酶(蛋白酶、淀粉酶和脂肪酶)活性在消化器官中的分布规律、特性,以及温度、盐度和温度一盐度的协同作用对消化器官(幽门盲囊、瓣肠、十二指肠、胃和
脉冲中子能谱测井仪是为适应不同的测井需要而研制的,其基础是碳氧比能谱测井仪和中子寿命测井仪.这种新型测井仪能适应不同的地质环境,其在地面测井软件的控制下,完成对套管
该文重点研究了干涉SAR系统的一些关键技术,从原理和算法上对系统进行了分析论述.重点分析了INSAR数据处理算法,并做出了自己的创新.论文主要由五部分组成:INSAR原理、INSAR
数字水印技术就是将数字、文字、图像等标志版权的信息嵌入到多媒体数据中,以起到版权保护的作用.目前数字水印的研究主要集中在变换域,其中以DCT域和小波域为主.随着新一代
近年来,无线通信技术正向着高通信速率、高能效的新型网络架构的目标发展。然而,传统无线通信技术的主要局限在于无法调和剧增的通信速率需求和消耗殆尽的频率资源之间的矛盾
光纤通信中,在单模光纤的反常色散区传输的皮秒光脉冲由非线性薛定愕方程(NLSE)描述,当脉冲宽度窄到亚皮秒和飞秒量级时,非线性色散的影响严重且不能作微扰处理,包含非线性色散项
本文论述了一个基于C/S模式的大型医院信息系统的设计与实现,工作目的就是帮助医院尽早实现信息化、现代化,提高医院管理质量和工作效率.通过对医院的实际调研和详尽的需求分