论文部分内容阅读
在计算机视觉领域的图像识别问题上,计算机的识别正确率已经远远超过人类。然而,许多机器学习的算法需要建立在一个严格的假设上:训练数据和测试数据必须属于相同的特征空间并且拥有相同的分布,即存在独立同分布的假设。一旦分布改变,大部分统计方法需要重新进行训练并且需要重新收集新的数据。在许多实际的应用场景中,重新收集数据会耗费大量的人力物力,一旦环境再次改变,新收集的数据将变得再次不可使用。在一些数据很难被获取的任务中,这样的做法更是不现实的。所以,在这种情况下,研究在两个域之间进行知识的迁移的技术变得迫在眉睫。迁移学习就是用来解决这一问题的,其旨在利用已有的数据或者模型,帮助感兴趣的数据或者模型的学习,在已有的源域中提取有用的“知识”并迁移到感兴趣的目标域当中。在图像识别领域,迁移学习往往可以被称作域适应(Domain Adaptation,DA)问题。DA问题假设源域和目标域具有相同的任务,但是两个域的分布是不一样的。DA问题可以分为有监督和无监督的,有监督的域适应问题表示目标域有一部分有标签的数据,而无监督域适应问题表示目标域没有任何标签信息。本文主要关注于无监督的情况,因为这种情况更接近于实际情况。现有的无监督域适应算法往往是单步骤的,其往往只能得到局部最优解,无法继续挖掘模型解的最优点。针对此,本文首先提出了一种两步骤的渐进训练策略,同时通过三个引导项来学习到一个不变的、具有判别性的域不可知的子空间。其次,现有的适应方法往往采取伪标签的策略,即利用源域训练得到的分类器来生成目标域的伪标签。但是却忽略了错误伪标签带来不可靠的分布对齐问题。针对此,本文提出了另一种算法来获得更可靠的分布对齐的同时建立更充分的域差异减小模型。最后,基于迁移学习的最传统的两个问题,即负迁移和欠适配问题,本文提出了一种域协同适应模型旨在缓解这两个问题。具体的,本文提出如下三种模型。
①引导子空间学习模型。该模型通过三个引导项学习到域间的不变、判别和域不可知的子空间,并且应用了一种两阶段的渐进式训练策略。首先,子空间引导项通过将源域子空间拉近目标域子空间来减小域间差异。其次,数据引导项利用双映射将两个域的数据映射到统一的子空间。最后,为了提高子空间的判别性,标签引导项被提出来预测源域和目标域的标签。除此之外,为了处理非线性的域偏移,非线性引导子空间学习模型被提出。该模型的贡献主要有三点。1)提出了一个由三个引导项组成的模型,并且通过一个两步骤的引导学习原理学习到目标域子空间。据笔者所知,这是通过引导学习模型进行域适应和迁移学习的第一项工作。2)将提出的方法进一步推广到再生核希尔伯特空间(Reproduced Kernel Hilbert Space,RKHS)中,并提出了非线性引导子空间学习模型。3)通过用真实标签替换伪目标标签,模型可以轻松地适应监督和半监督的设置,并且退化为“单步”方法。大量的实验表明,所提出的模型优于现有方法。
②利用分类器竞争的可靠域适应模型。模型提出了一种可靠的域适应方法。具体的,引入了双重任务分类器和特定于域的双重映射,以对抗的方式将容易被错误分类和不可靠的目标域样本对齐为可靠的样本。此外,同时消除了流形和类别空间中的域差异。该模型的贡献主要有三点。1)提出了可靠域适应模型来解决域间差异减少不足和分布对齐不可靠的问题。2)提出了非线性的可靠域适应模型,该方法可以轻松地扩展到核版本来处理非线性域移位。3)在许多具有挑战性的数据集上进行的广泛实验表明,该方法可以在包括浅层和深度学习方法的最新算法上达到可比的性能。
③域协同适应模型。过度拟合(负迁移)和欠拟合(欠适配)的困境始终是迁移学习/域适应问题的一个基本的挑战和未充分研究的问题。该模型将重新审视这个棘手的问题,并提出一个更安全的迁移学习框架,称为域协同适应模型。该框架本质上是一种双向的迁移模型。通过域之间的双边协同适应,可以大大降低负迁移和欠适配的风险。具体的,该模型提出了具有两个项的对称双边迁移损失来相互制衡。首先,每个目标样本都是由公共子空间中的源样本低秩表达的,因此可以保留信息量最大且可传递的源域数据从而避免负迁移问题。其次,每个源样本都由目标样本对称地稀疏表示,这样可以利用最可靠的目标样本来避免适应不足的问题。在各种跨域数据集中进行的实验表明,域协同适应模型框架的性能优于许多最新技术。
①引导子空间学习模型。该模型通过三个引导项学习到域间的不变、判别和域不可知的子空间,并且应用了一种两阶段的渐进式训练策略。首先,子空间引导项通过将源域子空间拉近目标域子空间来减小域间差异。其次,数据引导项利用双映射将两个域的数据映射到统一的子空间。最后,为了提高子空间的判别性,标签引导项被提出来预测源域和目标域的标签。除此之外,为了处理非线性的域偏移,非线性引导子空间学习模型被提出。该模型的贡献主要有三点。1)提出了一个由三个引导项组成的模型,并且通过一个两步骤的引导学习原理学习到目标域子空间。据笔者所知,这是通过引导学习模型进行域适应和迁移学习的第一项工作。2)将提出的方法进一步推广到再生核希尔伯特空间(Reproduced Kernel Hilbert Space,RKHS)中,并提出了非线性引导子空间学习模型。3)通过用真实标签替换伪目标标签,模型可以轻松地适应监督和半监督的设置,并且退化为“单步”方法。大量的实验表明,所提出的模型优于现有方法。
②利用分类器竞争的可靠域适应模型。模型提出了一种可靠的域适应方法。具体的,引入了双重任务分类器和特定于域的双重映射,以对抗的方式将容易被错误分类和不可靠的目标域样本对齐为可靠的样本。此外,同时消除了流形和类别空间中的域差异。该模型的贡献主要有三点。1)提出了可靠域适应模型来解决域间差异减少不足和分布对齐不可靠的问题。2)提出了非线性的可靠域适应模型,该方法可以轻松地扩展到核版本来处理非线性域移位。3)在许多具有挑战性的数据集上进行的广泛实验表明,该方法可以在包括浅层和深度学习方法的最新算法上达到可比的性能。
③域协同适应模型。过度拟合(负迁移)和欠拟合(欠适配)的困境始终是迁移学习/域适应问题的一个基本的挑战和未充分研究的问题。该模型将重新审视这个棘手的问题,并提出一个更安全的迁移学习框架,称为域协同适应模型。该框架本质上是一种双向的迁移模型。通过域之间的双边协同适应,可以大大降低负迁移和欠适配的风险。具体的,该模型提出了具有两个项的对称双边迁移损失来相互制衡。首先,每个目标样本都是由公共子空间中的源样本低秩表达的,因此可以保留信息量最大且可传递的源域数据从而避免负迁移问题。其次,每个源样本都由目标样本对称地稀疏表示,这样可以利用最可靠的目标样本来避免适应不足的问题。在各种跨域数据集中进行的实验表明,域协同适应模型框架的性能优于许多最新技术。