基于集成学习的多源域实例迁移算法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:lanqin2394
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着近几年计算机科学技术以及大数据产业的迅猛发展,数据科学已经逐渐成为了信息技术和互联网产业的新的驱动力,面对爆发式的数据增长现状,如何挖掘数据中存在的信息价值以及如何对数据信息所隐含的模式进行分析成为了数据科学亟待解决的关键问题,而机器学习作为一种数据挖掘手段,可以通过统计学的相关理论和技术对数据进行有效地建模,目前,不论是在理论研究上还是实践应用方面,机器学习都取得了巨大的进步发展。但是目前机器学习也存在其弊端,机器学习方法往往需要足够多的有类别标签的样本数据作为训练数据集才可以结合统计学方法建立机器学习模型,这一类的机器学习方法统称为监督式机器学习方法,而在实际生活中,有些领域的数据可能难以获取甚至无法获取,此时传统的机器学习方法就无法奏效,因此,如何在领域数据不足的情况下建立良好的领域模型成为了近几年机器学习研究领域极为关注的问题,针对这个问题,研究者提出了实用迁移学习的概念。迁移学习作为一种跨领域的机器学习方法,能够将一个领域的知识迁移到另外一个相关但却不同的领域进行目标领域的建模。但是传统的迁移学习往往仅从一个源领域学习先验知识并将之迁移到目标领域,考虑到现实状况中解决一个特定问题实际上可以从多个领域获取到先验知识。在这个学习过程中要解决的关键问题是找数据,找到源领域中和目标域中相关性强的样本数据。而从单源域中找出的与目标域中相关性强的数据很可能存在着数据分布不相同的情况,这时候会造成负迁移现象的产生,即迁移学习非但不能够帮助目标域学习到较好的模型,反而对目标域的学习产生了负面影响。本文的创新处在于本文建立了针对多源领域的迁移模型,拟学习到多个领域的隐含信息并辅助目标领域建立模型。该面向多源域的迁移学习模型创新性地设计了两个子模块,分别是半监督学习模块和集成学习模块,其中,半监督思想的引入是为了更好地利用目标领域中的无类别标签样本,而集成学习则是更好地从不同角度挖掘有用的领域知识并对其决策性能进行加权融合。通过将该模型应用在Letter-recognition、20 newsgroup和Reuters数据集上并进行实验测试,得到了比单源域、非集成机器学习方法以及非半监督机器学习方法更好的预测结果,验证了迁移学习比传统机器学习可以更好地利用先验知识来解决目标领域任务。
其他文献
中国银行间市场交易商协会(以下简称“交易商协会”)自从2010年推出超短期融资券以来,获得银行间债券市场的强烈追捧,其可用于补充企业流动资金、偿还借款等功能得到发行人的
目前,中小学生青春期教育的现状是:教师感到不好讲、说不出口,家长力不从心、爱莫能助,课本所涉内容了了无几,学生难免有时出于好奇而冲动。鉴于此,学校、家庭和社会应共同努
随着“互联网+”技术的推广和飞速发展,传统就医模式正逐渐发生改变。“互联网+”医疗通过连接个人、医疗机构以及医疗数据和设备等各种医疗卫生资源,构成医疗卫生大资源。某三
本文从碛口申报世界文化遗产的意义、遗产价值、遴选标准等方面着手,运用实地走访与文献资料相结合的研究方法,分析了碛口申报世界文化遗产的必要性与可能性,旨在保护古镇,发
从生理、病理、论治、调护4个方面对《幼幼集成》中的脾胃论治特色进行探讨,认为其特点是:注重脾胃倡母乳;端本澄源求病因;攻补相宜治虚实;调燮善后有活法。因而对当今小儿脾胃病的
现如今,食品添加剂的研究开发和应用已成为一个国家食品工业发展的重要标志之一。然而,近年来由于食品添加剂导致的食品安全事件时有发生,并引起了广泛关注,其安全性倍受关注
工业设备的结构日益复杂,对设备安全性和可靠性的要求也越来越高,对设备的故障进行实时监测和分析就显得十分必要。现在许多企业依然使用纸质点检、人工分析的工作方式,对检修人员的专业知识也有很高的要求,更重要的是,这个过程很可能存在着由于人工疏忽而产生的误差,造成对设备故障的漏判、误判。因此工业故障智能诊断技术的研究具有十分重要的意义。本文针对故障诊断问题中存在的有标记训练样本数量不足的问题,以迁移学习方
当前,在互联网与移动互联网领域,技术飞速发展,垂直产业链趋于完善。用户需求导致互联网产业格局快速转型,市场不断细分,商业模式和业务内容更加丰富,“互联网+”新模式全方
本文基于300万汉英平行语料以及HSK动态作文语料库的中介语语料,通过对比分析及定量分析的方法对英语背景留学生“正、在、正在”的习得情况做了研究。本文首先考察了汉英工具书、通用大纲、常用教材中“正、在、正在”的编排和解释情况。在考察的基础上,我们对“正、在、正在”这组词进行汉外对比研究。我们研究了这组词在英语中的对应情况以及这组词搭配不同时间词、副词、谓词性成分在英语中的对应情况。我们发现这组词搭
立体绿化是改善当代建筑与环境的关系、实现建筑节能、增强建筑生态性能的有效手段。办公建筑在城市建筑中占比突出,由于其使用人群庞大且持续时间长,营造良好的办公与休憩空间显得十分重要。研究立体绿化在办公建筑中的运用具有重要的社会价值、经济价值以及生态价值。目前,深圳市正在大力建设“森林城市”,立体绿化是其重要内容之一,办公建筑立体绿化在深圳具有广阔的发展前景。依托此大背景,本文以深圳市作为研究范围,在基