集成学习多样性研究

被引量 : 12次 | 上传用户:zwj54255
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习是机器学习领域中的研究热点问题,其通过组合多个学习器来解决一个问题。对比普通的机器学习算法在训练数据上生成一个学习器,集成学习生成一组学习器并通过各类方式组合它们,从而取得比单个学习器更好的泛化能力及分类准确性。而在提高集成学习准确性方面,由于集成分类器各分类器的多样性与准确性之间存在一定关系。因此,深入研究准确性同多样性之间的关系,并通过增强多样性来提升分类器准确性则变得至关重要。本文以随机决策树(Random Decision Trees, RDT)为基分类器,因RDT作为不稳定分类器,集成之后较之单个分类器提升效果明显,且RDT本身的随机性也增加了多样性。此外,分别利用半监督学习算法Tri-training及新的集成策略BLB(Bag of Little Bootstrap),并对比其他集成策略进行实验。之后,使用多样性度量方法及准确性评价方法,对结果进行汇总分析。在各实验基础上,利用微信公众平台,采用众包策略,以航海语料库作为实验数据集进行文本分类,请用户参与文章的人工分类来获取反馈,利用用户的不同分类来产生多样性,通过真实的众包来实现集成学习,并对反馈结果进行分析研究,并使用特征选择和选择性集成来改进之前的两种算法。本文具体的工作包括:(1)本文使用Tri-training半监督学习算法,以RDT作为基分类器进行迭代训练,最后得出集成分类器。该算法利用半监督学习的特点,通过使用已标记样本训练出的三个初始分类器互相标注未标记样本,改良各基分类器,同时利用未标记样本增加了分类器的多样性,即增强了各基分类器间的差异。该实验分别在UCI上的不同规模的10组小数据集以及5组中等规模数据集进行实验,并选取经典集成学习算法Bagging和Adaboost作为对比实验,采用10倍交叉验证方法来获取平均测试准确率及DF, KW和MTI等多种多样性度量值,分析准确性与多样性两者之间存在的关系。实验结果证明,多样性的适度增强确实可以提升准确性。(2)本文采用BLB作为新的集成策略来进行多样性研究。由于其融合了Bootstrap和二次抽样的特点,通过扰动训练集的方式增加了多样性。同样以RDT作为基分类器,在UCI上不同的中小规模数据集进行实验。并利用实验结果分析准确性与多样性的关系。实验结果证明,BLB的确比同样利用Bootstrap的Bagging算法在多数数据集上的准确性有所提高,从另一侧面反映出多样性增强对准确性提高的作用。(3)最后本文借助微信公众平台,采用众包策略,相比传统人工分类成本高,难获得,采用众包策略的微信平台人工分类具有成本低,获取便捷等优势。选取航海语料库中被前述两种集成算法分类错误的文章,通过用户对文章不同的人工分类结果来产生多样性,利用该结果进行分析研究,并使用特征选择和选择性集成等方法对之前两种算法进行了改进。实验证明,改进后的算法准确性有明显提升。
其他文献
通过查阅参考大量的文献资料,对多民族药材白花丹的原植物、药材、化学成分、药理作用、临床应用等作一介绍。
本文首先阐述多元节点法——CFLP的方法与原理,然后通过实际案例,应用CFLP法对物流节点选址问题进行规划,得出该物流节点选址的最佳方案。
瘢痕疙瘩为皮肤损伤后,结缔组织过度增生和透明变性而引起的皮肤良性肿瘤。其发病机制不明确,目前尽管治疗方法较多,但临床尚没有一种疗效可靠且安全的方法。我科门诊采用局部皮
<正>肝细胞肝癌(HCC)是全球第六大最常见的恶性肿瘤。HCC发生隐匿,往往造成晚期确诊,加之合并症多、供体有限等因素导致只有大约百分之十的患者能够接受有效治疗。因此,临床
随着我国高速铁路的发展,一些特殊地形条件下路堤支挡结构的变形特性引起工程界的广泛关注。桩板墙由于其桩身锚固段深入稳定地层承受横向推力,其悬臂段高度可以突破普通挡墙
目的 探究在急性心肌梗死中梗死前心绞痛对其影响情况.方法 选取2013年1月至2015年4月在我院心内科治疗的急性心肌梗死患者120例作为研究对象,根据患者心肌梗死前有无心绞痛
通过分析高速公路对物流发展的影响。CFLP(capacitated facility location problem)法进行计算,过算例分析对理论模型进行验证。引进阻尼系数对区域物流节点的选址模型进行改进,
互联网兴起于20世纪90年代发展至今已成为一种重要的社会交际形式,它在很大程度上已经开始改变了人们的生活方式。网络正在渗透并影响着电话,电视,广播,报纸这些传统的交流媒介。
<正>推动制造业创新体系升级,深化传统制造业改造提升;推动重大项目技术落地转化,打造信息基础建设互联互通;实施数字经济"一号工程",培育发展先进制造业集群;推动产业合作发
本文详细分析了一个VdP网关的软硬件体系结构。该网关以摩托罗拉的MPC860MH为核心处理器、AudioCodec公司的AC4830xA—C作为语音处理芯片。运行VxWorks操作系统。网关同时支