论文部分内容阅读
随着大数据产业的迅猛发展,越来越多的产业需要对相关数据进行深入的分析,以期望从数据中获取有用信息,对业务流程进行建模,对业务效益进行评估,对业务趋势进行预测。在基于机器学习的业务流程建模过程中,数据一直是业务的核心,拥有质量较好的数据信息,就可以建立更好的数据模型。但是传统的机器学习仍然存在一些很棘手的问题:为了建立足够好的模型,建模过程需要足够多的有类别标签的样本数据,而往往有些数据非常难以获得,要获取相关的数据需要花费巨大的人力、物力和财力,甚至有时候获取某些领域的数据是不可能的。迁移学习作为一个新兴研究方向,可以将一个领域学习到的知识迁移到另外一个不同但却相关的领域,帮助另外一个领域进行快速建模。在迁移学习体系中,如何有效适配两个领域的数据分布,以及如何在领域之间的分布差异较小的情况下筛选出源领域的有效样本辅助目标领域模型的训练,都是影响目标领域数据模型有效性的关键因素。论文对基于实例的迁移学习算法和基于特征表达的迁移学习算法进行了分析,设计并验证了三种面向跨领域的迁移学习方法。首先,本文提出一个基于实例的简单迁移模型,模型通过对源领域数据进行一次非迭代的样本筛选,可以丰富目标域的训练样本并快速训练得到一个迁移模型,实验证明,在跨领域的面部表情数据集上,简单迁移模型可以具有比不使用迁移方法更好的学习效果。另外,本文又对基于互信息加权的多特征集成迁移学习方法进行了讨论,通过多视角学习方法学习到源域中在多个特征下的信息,随后,创新性地引入互信息来衡量不同领域在每个特征表达下的信息相似度,通过指数加权方法,对多特征下的学习结果进行融合,实验证明该方法可以有效集成多个不同特征下的学习器性能并取得比单特征迁移学习更好的学习结果。为了进一步提升迁移性能,本文引入自动编码器对不同领域数据进行领域适配,建立源域和目标域之间的关系,使用互信息指导训练一个可以将源域数据映射到目标领域的深度神经网络,且保持源域和目标领域的数据分布差异最小,最后通过再一次使用简单迁移模型,得到了一种较为普适的基于特征重构和实例筛选的迁移学习算法。