基于特征重构和样本筛选的迁移学习算法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:LITAO14073164
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据产业的迅猛发展,越来越多的产业需要对相关数据进行深入的分析,以期望从数据中获取有用信息,对业务流程进行建模,对业务效益进行评估,对业务趋势进行预测。在基于机器学习的业务流程建模过程中,数据一直是业务的核心,拥有质量较好的数据信息,就可以建立更好的数据模型。但是传统的机器学习仍然存在一些很棘手的问题:为了建立足够好的模型,建模过程需要足够多的有类别标签的样本数据,而往往有些数据非常难以获得,要获取相关的数据需要花费巨大的人力、物力和财力,甚至有时候获取某些领域的数据是不可能的。迁移学习作为一个新兴研究方向,可以将一个领域学习到的知识迁移到另外一个不同但却相关的领域,帮助另外一个领域进行快速建模。在迁移学习体系中,如何有效适配两个领域的数据分布,以及如何在领域之间的分布差异较小的情况下筛选出源领域的有效样本辅助目标领域模型的训练,都是影响目标领域数据模型有效性的关键因素。论文对基于实例的迁移学习算法和基于特征表达的迁移学习算法进行了分析,设计并验证了三种面向跨领域的迁移学习方法。首先,本文提出一个基于实例的简单迁移模型,模型通过对源领域数据进行一次非迭代的样本筛选,可以丰富目标域的训练样本并快速训练得到一个迁移模型,实验证明,在跨领域的面部表情数据集上,简单迁移模型可以具有比不使用迁移方法更好的学习效果。另外,本文又对基于互信息加权的多特征集成迁移学习方法进行了讨论,通过多视角学习方法学习到源域中在多个特征下的信息,随后,创新性地引入互信息来衡量不同领域在每个特征表达下的信息相似度,通过指数加权方法,对多特征下的学习结果进行融合,实验证明该方法可以有效集成多个不同特征下的学习器性能并取得比单特征迁移学习更好的学习结果。为了进一步提升迁移性能,本文引入自动编码器对不同领域数据进行领域适配,建立源域和目标域之间的关系,使用互信息指导训练一个可以将源域数据映射到目标领域的深度神经网络,且保持源域和目标领域的数据分布差异最小,最后通过再一次使用简单迁移模型,得到了一种较为普适的基于特征重构和实例筛选的迁移学习算法。
其他文献
随着我国社会主义经济建设的快速发展,建筑业得到前所未有的拓展空间逐渐成为国家重点建设产业之一。本文主要针对高层建筑展开论述,对高层建筑的施工特点进行了分析,并着重
<正>随着现代生物医学研究与技术的发展,尤其是基因组学与生物信息学的进展,使得人们对人类疾病的成因及相关因素的研究越来越明晰。2型糖尿病(T2DM)是一种多基因遗传异质性
河北省玉田县是首批国家农产品质量安全县创建试点单位之一。从2015年开始,玉田县按照创建要求,结合玉田实际,扎实开展了各项创建工作,取得了显著成效。文章介绍了玉田县创建
本文首先基于服务业中间品厂商实行的定价策略,从理论上分析了服务业外资管制通过影响下游企业投入的服务中间品种类数量,作用于下游企业生产率的机制。然后采用中国正式颁布
目的:通过蛇菰多糖对脊髓损伤大鼠模型进行治疗,观察并比较治疗后脊髓运动神经元组织形态的变化,并检测相应的自噬相关蛋白,探讨蛇菰多糖对脊髓损伤的保护作用机制是否通过激
本文认为,社会两极分化降低了财产权和契约权的安全性,并由此抑制了经济增长。跨国实证分析表明,以收入不平等、土地不平等和种族冲突等形式表现出来的社会两极分化与衡量契
目的评价强脉冲光祛除多余体毛的临床疗效,并观察其治疗的安全性。方法采用强脉冲光治疗仪对265例患者387个部位进行脱毛治疗,治疗波长为700~1200 nm,能量密度为26~45 J/cm2,
地铁作为现代生活最主要的生活交通工具之一,在给人们带来方便的同时,也伴随着产生了许多灾难性事故。由于地铁站特殊的建筑结构,当遇到火灾时,不利于人员正常疏散。基于此,
社交网络在人们日常生活中扮演着重要角色,越来越多的用户在社交网络上分享内容、传播信息和表达观点,使得信息在社交网络上的传播异常活跃。用户之间的相互关联构成了社交网
本文从实证角度出发,以成都市地铁1、2号线沿线住宅样本为例,研究了成都市地铁交通对沿线住宅价格的影响规律。采用特征价格模型(Hedonic模型)作为研究的基础模型,利用SPSS16