基于重抽样的Boosting算法研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:plant720
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,世界被大量的数据淹没了。如何从这些海量的数据中找出对社会,生活有用的信息是面临的挑战。统计学在这样的环境中发挥着巨大的作用。因为统计学它本身就是一门收集、分析、展示、解释数据的科学。按照Breiman的观点,统计的文化包括传统建模与算法建模这两种不同的文化。之所以这样划分统计文化是与统计发展中面临的不同问题有关的。在这当中,计算机扮演了它非常重要的一个角色。由于计算机存储能力的提高,面对的数据集越来越大,数据维数越来越高,数据结构越来越复杂。当大量的计算已经不是问题的时候,算法建模文化就不断地渗透到了统计的文化中,形成其中一个重要的领域:机器学习。机器学习,顾名思义,就是让机器自己学习。让机器模拟人类认知世界的过程一样来进行学习,从而达到能够完善自身的目的。  机器学习算法在处理海量数据上显示出它的优势。它与传统建模方法的根本区别在于它不需要对数据进行任何假设,而这些假设总是不能验证是否是正确的。在处理高维数据时,比起传统建模方法它们有着非常好的抵抗维度灾难的能力。这就使得机器学习算法得到了广泛的应用与不断的发展。Boosting算法正是近二十年来兴起的一种机器学习算法。它是组合算法中的一种。它通过自适应地抽样生成基学习器并将这些基学习器自适应地加权组合形成一个强的学习器。自Freund和schapire于1995年提出第一个Boosting算法,Adaboost算法以来,Boosting算法一直是人们研究的热点。人们对Boosting算法也都有自己不同的理解。根据实际问题的不同,又衍生出了许多不同的Boosting算法,形成了现在的Boosting算法族。  本文以Boosting算法为研究对象,首先对Boosting的历史,发展,研究现状进行综述与分析。然后从实际问题出发,提出了7种新的Boosting算法。实验结果表明,这些算法都比以前的方法有更好的有效性与适用性。论文的具体研究内容如下:  1、介绍Boosting算法的框架,研究历程,并介绍了几种代表性的Boosting算法,如:Adaboost,LogitBoost,L2Boost,acr-x4等;  2、当Adaboost算法应用到不平衡数据时会忽略少数类数据的特征。在引入类内错判率做为评价标准后,对Adaboost算法每一步迭代时以所有类的错判率做为迭代权重进行改进,论文中提出两种改进的Adaboost算法,称为:BABoost算法和BABoost-J算法。新算法与Adaboost,bagging,Randomforest,SmoteBoost等算法想比,在不平衡数据上能显著地降低少数类数据的分类误差。与Adaboost算法相比,新算法能得到更高的margin。意味着BABoost算法的分类能力强于Adaboost算法。Baboost是指数损失下的最优解的调整。通过对少数类数据提高权重的方法,论文中又提出了两种改进的LogitBoost算法。在考虑各个类内部的分类误差的情况下,讨论了Adaboost算法与LogitBoost算法的区别。新算法同样能够在不平衡数据上显著地降低少数类数据的分类误差。  3、在回归问题中,Gradiet Boosting算法是一种基于损失函数是一个关于基学习器连续的函数,利用损失函数关于基学习器的一阶导数方向作为寻优方向搜索局部最优解的算法。L2Boost算法以线性模型做为基学习器,是其典型代表。但是如果基学习器空间是不连续的,梯度Boosting的方法就不适用了。该类算法在理解Adaboost算法时,没有沿用Adaboost算法中的重抽样技术。这里将重抽样技术沿用到boosting回归中,提出一种新的Boosting回归树算法,称为ABRT算法。该算法能比L2Boost算法得到更小的预测误差,原因是该算法有着比L2Boost算法要小的偏差。因此,该算法牺牲了一些方差,但是得到了更小的偏差与预测误差。但是该算法收敛速度比L2Boost要低。为了提高ABRT算法的收敛速度,本文又提出ABRT-1算法。该算法预测误差更低。进一步,文中将基分类器的分布情况引入考虑,提出基于距离的Boosting算法。该算法收敛速度也比ABRT要快,而且预测误差也同样很小。
其他文献
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
玉米雄性不育材料是一种宝贵的种质资源,不育基因的遗传分析与定位研究对玉米分子育种和杂种优势利用具有重要价值。通过对从美国引进的玉米雄性不育突变体材料ms14进行雄花
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
Mining frequent patterns has been studied popularly in data mining area. However, little work has been done on mining patterns when the database has an influx o
生态环境污染已经成为当今经济发展过程中的一个重要问题,伴随着经济全球化的进行和国际贸易的飞速发展,贸易与环境可持续发展的重要关系也开始突显出来。尤其在我国,贸易在促进
期刊
When designing a multimedia server, several things must be decided: which scheduling scheme to adopt, how to allocate multimedia objects on storage devices, and
期刊