论文部分内容阅读
随着互联网的飞速发展,信息的表示形式越来越多样化。作为一种直观明了且易于理解的信息表达形式,图像已成为大数据的重要组成部分,数量急剧增多。比如现在浏览各种网站都会看到大量图片,包含信息丰富,这使得图像在研究和日常生活中日益重要,图像分类技术也随之成为图像处理领域的研究重点。而传统的机器学习方法进行图像分类时,不仅需要大量的标注样本,而且过于严苛的同分布假设也势必会使得分类器性能下降。不过可以庆幸的是,互联网上有许多分布不同的标注信息完整的相关图像集(源域)留存。如何充分且高效地运用这些不同分布的图像集辅助缺乏甚至无标注的目标域图像进行分类是当今机器学习和机器视觉领域的研究热点。这种利用源域的知识帮助目标域解决问题的方式称为迁移学习,是一种新型的机器学习方法。迁移学习不再受同分布假设的制约,能够将不同领域之间稳定不变的结构和特征在相似的领域或任务间进行共享和迁移,在图像分类领域有较高的应用价值。研究基于迁移学习的图像分类是为了将源域的知识更高效地运用到目标域,提高目标域图像的分类准确率。针对自然图像分类问题,本文改进了两种不同的基于迁移学习的图像分类算法。主要内容及创新点描述如下:(1)针对在联合适配边缘和条件分布以缩小源域与目标域的分布差异时存在的由类不平衡问题导致的模型泛化性能差的现象,改进了一种基于平衡概率分布和实例的图像分类方法(Balanced Distribution Adaptation and Instance Based Image Classification Algorithm,简称BDAIIC)。现有的方法大多都是单一地迁移特征或样本实例,BDAIIC算法则是两者的有机结合,在数据特征变换的同时重用与目标域相关性较高的样本实例,进一步提升模型的泛化性能。为了缩小领域间的分布差异,BDAIIC算法对源域与目标域的边缘概率分布和条件概率分布进行了联合适配,并且设置平衡因子量化两个分布的贡献率,采用加权条件分布处理类别分布不平衡问题。在字符和对象识别图像集上设置了多组对比实验进行验证,较大幅度提升的分类结果证明了BDAIIC算法的可行性及优越性。(2)针对当前很多基于迁移学习的图像分类算法大多只考虑缩小领域间差异性而无视数据固有的语义信息以及特征可能会偏移或扭曲等问题,改进了一种基于流行嵌入式分布对齐的图像分类算法(Manifold Embedded Distribution Alignment Based Image Classification Algorithm,简称MEDAIC)。该方法引入测地流形核函数进行特征变换,保持数据几何分布属性,挖掘数据深层语义信息,避免特征偏移或扭曲而造成负迁移。并且在缩小不同领域间的分布差异时,MEDAIC算法通过特征变换学习两个耦合投影,对源域和目标域进行了耦合式概率分布,以同时缩小领域间边缘概率分布和条件概率分布差异。不同图像数据集上的多组实验的分类结果,证明了MEDAIC算法的有效性和适用性。