集成学习中若干关键问题的研究

被引量 : 72次 | 上传用户:xumeg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是机器学习和数据挖掘中的一项重要任务,在现实生活中有着广泛的应用。例如,根据邮件的标题和内容判断其是否为垃圾邮件,根据病人的各项检测指标判断其是否患有某种疾病等。目前已经提出了许多分类学习算法,如决策树、贝叶斯网络、人工神经网络、支持向量机等。集成学习通过训练若干有差异的学习器,并将它们的预测结果进行合成。相对于单个学习器,集成学习算法在大多数情况下可以显著提高学习系统的泛化能力,因此对集成学习理论和算法的研究一直是机器学习领域的一个重点和热点。为了构造一个强的集成学习系统,现在一般认为,集成中各个体学习器应该具有较高的精度并且个体之间具有较高的差异度。目前已经提出了许多集成方法,如Bagging、AdaBoost、Random Subspace、Random Forest等。虽然这些算法获得了广泛的关注,并在许多现实的应用中取得了良好的效果,但是仍然存在许多关键问题需要改进和完善,其中包括:Bagging算法只适用于不稳定的分类器;AdaBoost算法容易过拟合有噪声的训练数据因而健壮性较差,同时不支持并行化;Random Subspace仅适用于含有大量冗余特征的数据;对于一些特定的学习算法如朴素贝叶斯、支持向量机等,现有集成算法的提升能力均十分有限,等等。这些问题表明我们有必要设计基于其它思路的集成学习算法以弥补现有算法的不足。本文在分析现有集成算法现状的基础上,围绕基于处理输入属性和类别属性以设计有效的集成算法问题展开了深入的研究,另外还研究了中心化矩阵广义逆的在线更新问题。具体来说,本文的主要工作和创新点如下:1.研究了基于多任务学习思想的决策树集成算法,提出了一种新的决策树集成算法MTForest。该算法通过枚举使用每个输入属性作为辅助任务和类别属性来共同决定决策树构建过程中每个节点的最佳划分,以建立集成中的个体决策树分类器。2.分析了现有基于处理类别标记的集成算法的不足,首次提出了能够同时适用于两类和多类学习问题的基于处理类别标记的集成算法MACLEN。该算法通过枚举每个输入属性和类别属性来构建一系列具有不同偏置的新类别标记的集合,通过对每个新的类别标记表示的问题进行学习得到若干有差异的个体分类器,最后将它们对新样例的预测结果进行结合作为集成的最终输出。3.研究了基于弱化朴素贝叶斯条件独立假设的集成算法,提出了完全随机贝叶斯分类器集成算法RBNC。该算法使用随机搜索的方式来构建集成中的个体分类器,即在朴素贝叶斯的结构之上,使用完全随机化的方式确定每个属性的父节点。该算法的优点是避免了结构学习的高计算复杂度,弱化了条件独立假设以及通过集成避免了个体随机结构导致的高方差。4.此外,本文还研究了中心化矩阵广义逆的在线更新问题,首次给出了当向矩阵中插入一列(行)数据或删除已有的一列(行)数据时,其对应的中心化矩阵广义逆的精确更新公式。同时我们将此结果应用到在线维数约简问题中,提出了在线最小二乘线性判别分析(LS-OLDA)算法。
其他文献
历史上的宋江起义是农民起义,长篇小说《水浒传》的作者施耐庵、罗贯中思想上很清楚“大闹中原,纵横海内”的梁山泊起义军“雄兵十万”,基本上是由“农夫背上添心号,渔父舟中
本文通过有机合成教材内容体系的系统地比较、分析和归纳及教学实践结合,对有机合成教材体系中存在的主要问题及对策进行了探索,并在充分体现了教材体系的科学性和系统性的前
班组是企业中的基本作业单位,也是一种逐渐被重视的管理布局方式。文章通过"班组织HSE管理能力存在的问题"和"如何提高班组长HSE管理能力"两方面入手进行探讨,使HSE体系有效
学习并解析《傅青主女科》诊治妇科痛证的学术思想与用药特色。认为《傅青主女科》论妇科痛证之病机,痛经实则责之肝,虚则责之肾;妊娠痛证责之肝脾肾;产后身痛责之气血风冷。
20世纪60年代后,在西方发达国家出现了基于新马克思主义思想的空间研究热潮。这一研究最重要的特点是将马克思学说引入空间研究领域并发展成为一种新的研究范式。从其空间批
中华民族有着丰富的道德文化思想,而先秦儒家德育思想在其中占有突出地位,对后世的影响很大。它己深深融入到中华民族的思想意识和行为规范之中,沉淀为一种道德遗传基调。研
2003年以来国家采取土地紧缩的政策,但城市规划学者对土地问题的关注并不够,很多规划方案难以"落地",研究亦偏重对欧美城市发展模式的借鉴,而对国内体制的剖析不足。从土地权
随着我国高速公路的迅猛发展,沥青路面得到了广泛应用。在高温多雨地区,越来越多的沥青路面出现了车辙和水损害等早期病害,因此开展沥青混合料高温稳定性和抗水损害能力的研
随着我国公路事业迅猛发展,大量在用桥梁承受的负荷越来越重,出现承载力不足、构件老化等一系列影响桥梁使用性能的问题,因此对既有桥梁的可靠性进行科学评估,以保证其运营的
目的:综合分析眩晕患者的基本数据,探讨眩晕的发病规律以及中医证型及其相关因素的关系,探讨中医证型的客观化,为中医药在眩晕的临床预防及治疗方面提供理论依据。方法:回顾性