论文部分内容阅读
在数据挖掘和机器学习领域中,监督学习模型一直有着广泛的应用。然而,模型中需要用到的监督信息,即有标注的数据往往较难大规模地获得。而对数据进行标注,往往需要大量的人力、物力。为了解决研究问题中标签信息匮乏的困难,专家学者们提出了迁移学习的概念。在迁移学习问题中,研究对象所组成的数据集被称为目标域,有充足标签信息并能起辅助学习作用的相关数据集被称为辅助域。为了解决各种实际问题,研究人员致力于从辅助域里学习所需要的知识,以帮助目标域里模型的学习。本论文深入分析了跨数据域迁移学习问题,并在研究大量国际经典文献工作的基础上,提出了多种跨数据域迁移学习分类模型和算法。本文的主要工作和创新点在于:1.提出了一种基于流形的鉴别迁移学习分类模型。我们观察到现有的很多跨数据域文本分类的方法,都采用了联合矩阵分解模型来学习各个数据域的低维因子。然而,由于矩阵分解模型着重挖掘的是数据内在的聚类结构,这些算法普遍忽视了数据因子在分类任务中理应具有的鉴别属性。为了解决这个问题,我们将分类模型施加在学习所得的数据因子上,并以损失函数为调节项对因子进行进一步的优化。此外,这些基于矩阵分解的迁移学习算法学习得到的数据因子在不同域之间还是存在很大的差异性。我们在数据各个维度的因子上引入刻画域间差异性的统计度量,并且以最小化这种差异性为目标,进一步优化所得的数据低维因子。2.我们提出了一种跨数据域分类模型:通过学习各个数据域共享的子空间来实现知识的迁移。在这个模型中,我们提取了各个数据域中特征上保持稳定的代表性数据,并以这些数据来构建子空间的基向量。另一方面,为了加强不同域的数据在这个子空间中的统计相似性,我们通过最小化域间差异性,对子空间中的数据因子进行了进一步的优化。3.提出了一种融合数据多视角信息进行跨数据域分类的算法。在算法中,我们鉴别地提取了不同域的数据的多视角特征,将那些反映类属本质的特征保留了下来。我们在提取的特征上引入刻画域间差异性的统计量,通过最小化域间差异性对特征进行优化。进一步,我们在语义类别的全局结构和数据的局部几何结构上对标签的预测结果进行了约束,最终提高了目标域中的分类准确率。