论文部分内容阅读
文本分类是根据文本的内容为文本分配标签或类别的过程,是自然语言处理中的基本任务,具有广泛的应用。在大数据时代,从海量文本数据中分析和挖掘有用的信息,不仅可以节省人力物力,还能够帮助商家或者政府根据信息为人们提供优质的服务。因此,如何快速有效的进行文本分类具有巨大的实际意义。常用的文本分类方法主要有基于传统机器学习算法和基于深度神经网络算法。基于传统机器学习算法依赖人工设计的特征工程,具有维度高、稀疏性强、表达能力差、不能自动学习等诸多缺点。基于深度神经网络算法具有强大的特征自学习能力,在文本分类任务中取得了较大进展,但这种方法需要大量的高质量标注数据进行训练,而高质量的标注数据较为匮乏且需要耗费大量的人力和时间。另一方面,由于文本分类是领域依赖任务,即在不同领域的人们往往使用不同的表达方式和词汇,甚至不同领域的相同词汇传递不同的语义,导致在一个领域训练的模型用于其他领域时泛化性能较差。因此,研究人员考虑如何利用其他大量带标注数据的相关领域来训练神经网络模型,然后用于带有少量标注或不带标注的目标域数据集上依旧表现良好。研究者称之为领域自适应问题,主要致力于将其他领域的知识迁移到目标域来缓解标注数据不足的问题同时增加模型的泛化性。本文针对现有的文本分类算法和领域自适应任务进行了探索和研究,具体研究内容如下:(1)提出了一种基于字词联合表示的Attention-RNN文本分类模型。由于当前大多数文本分类算法以单个词为基本单元作为模型的输入来捕获单词间的语义规则,但若语料中出现未知或稀有词汇时,模型会丢失一些语义信息。针对该问题,提出了一种基于字词联合表示的Attention-RNN文本分类模型,结合了字符向量和词向量的优点。首先使用卷积神经网络(CNN)对每个词所组成的字符进行编码获取字符向量,将字符向量与词向量进行拼接,然后利用双向门控循环单元(BGRU)提取文本中的上下文依赖关系,最后结合注意力机制(Attention)捕获文本中的重要特征。(2)提出了基于相关对齐和注意力机制的无监督域适应模型。由于并不是源域中所有的特征都可以迁移,当对齐了不可迁移的特征时,可能会引发负迁移。本文提出了基于相关对齐和注意力机制的无监督域适应模型,引入注意力机制,自动挑选出源域中对目标域有利的特征,减少不相关的源域信息的干扰,然后使用相关对齐算法来缩小源域与目标域的分布差异。(3)提出了基于对抗域适应和相关对齐算法的跨域情感分类模型。由于大多数跨域情感分类方法旨在提取领域无关的特征,而忽略了领域特有的信息。本文提出了基于对抗域适应和相关对齐算法的跨域情感分类模型,可以同时提取源域和目标域中领域无关的特征和领域特有的特征。其中领域无关的特征的获取利用了对抗学习的思想,设置了一个公共特征提取器和一个域判别器,将特征提取器和域判别器进行对抗训练,域判别器用于分辨特征来自源域还是目标域,而特征提取器尽可能的“欺骗”判别器使其判别不出样本来自哪个域,以此将源域和目标域中的特征进行对齐。此外,在训练过程中,源域分类器中加入了目标域信息,增强了源域分类器在目标域数据集上的泛化性。