论文部分内容阅读
随着物联网和图像技术的急速发展,信息表示的方式多样化,尤其是以图像表达出来的方式,有着直观,容易理解等优点,比如现在各大新闻网站的每则新闻都包含多张图片,这使得图像在研究和日常生活中日益重要。如果能解决大量图像的有效高质量的标注和分类问题,可以使用户便捷高效地找到有用的数据。但是图像大都来自不同分布的数据集和领域。由于传统机器学习假设训练数据和测试数据服从相同概率分布,如果利用传统机器学习的标注和分类算法来挖掘新数据信息,性能势必下降;如果只利用单个数据集的数据训练模型,又体现不出大数据的价值。在实际应用中往往很难满足同分布条件,即使勉强满足条件也大大降低了模型的性能。随着计算机信息技术的快速发展,如何从海量数据中挖掘有效信息并加以利用已经成为当前研究热点问题。迁移学习即是如何在这种训练数据和测试数据概率分布不同情况下进行学习。迁移就是一种学习影响另外一种学习,这种迁移不仅可以发生在知识和技能领域,在动机、态度、情感、行为方式以及兴趣等领域内也同样是可以发生迁移的。迁移学习降低了训练数据和测试数据必须服从相同分布的限制,能够挖掘源域和目标域间稳定不变的结构和特征,可以有效地在相似的领域或任务间进行信息的共享和迁移,可以迁移和复用源域中有标注的监督信息。迁移学习近几年成为数据挖掘和机器学习的热点研究问题。本论文深入研究迁移学习问题,并在大量研究学者基础上,提出了两种不同的迁移学习算法。本文的主要工作和创新点在于:1.针对单一匹配边缘概率分布缩减源域和目标域差异性中存在的泛化能力差的问题,提出基于特征联合概率分布和实例的迁移学习算法。现有的迁移学习方法大都是基于特征的迁移学习方法或者是基于实例的迁移学习方法,与之不同的是,为了进一步提高迁移学习所获得的模型泛化性能,该算法在进行数据特征转换的同时加入实例正则项充分挖掘对目标域有利的相关实例。此外,通过特征学习和实例学习,不同域之间的差异性还是明显存在,该算法不仅缩减域间概率分布差异,同时缩小域间条件分布差异,并且以最小化这种差异性为目标,提出统一的优化目标函数。在字符集和对象识别数据集上的实验表明所提出算法的有效性。2.针对目前很多迁移学习方法主要减小域间差异性而忽略了数据本身隐藏的语义信息,提出一种基于流形学习的直推式迁移学习方法。该方法首先将各个领域的数据从原始高维特征空间非线性映射到低维特征空间,在该低维空间下,所有数据都得到新的表示,然后加入流形学习保持数据几何分布属性挖掘数据语义信息,最后为了缩减不同域在这个子空间中的分布差异性,本文通过加权的联合概率分布最小化域间差异性,对子空间中数据新的特征表示进行进一步的优化。在多个实际数据集上的实验结果表明本文所提出算法可以有效地提高迁移分类准确率。