论文部分内容阅读
在机器学习中,数据表示是决定后续任务性能的关键所在。文本是数据的一大类,文本表示是许多自然语言处理任务的基础工作,建立文本表示模型的目的是分析和表示文本的语义信息,得以在文本分类、机器翻译、自动问答等自然语言处理任务上取得更好的效果。在传统的文本表示方法中,例如词袋子模型,具有数据稀疏和容易产生维度灾难等问题,模型的泛化能力较差。近年来,随着机器学习的发展,各种神经网络建立的文本表示模型开始出现。基于神经网络的文本表示模型是将多种层次结构的文本,通过神经网络的学习映射得到低维连续的向量,所有向量都在同一个低维向量空间中,提高了模型的表示能力。同时卷积神经网络在各种神经网络中具有较好的特征选取能力。然而,现有神经网络文本表示模型存在着一些问题。首先,对于不同文本中相同的词,在神经网络中使用相同的单一的向量,在特征提取时势必对一词多义、同形异义等情况不能够做出较好的区分,得到的特征不能较好地完成分类任务。然后,对于通常的神经网络模型文本表示模型,无法有效地捕获不同文本单元和可变长度的组合序列的语义和结构信息,对文档级别的文本进行处理时模型性能会大大的降低。根据上述存在的问题,本文分别从句子和文档两个层次,对比了多种神经网络文本表示方法,根据现有文本表示方法的不足,提出了改进后的表示模型。以下是本文所做出的主要工作:第一,提出了基于主题词向量的卷积神经网络句子文本表示模型。在该模型中,针对神经网络输入层的词向量矩阵,利用了相同的词在不同的文本中的语义信息应该有所差异的特性,为句子文本中的每个词语分配所在文本对应的主题信息,得到了每个词的主题词向量。同时为了不把不相关的主题信息引入到神经网络中,在中间层加入了主题转移矩阵过滤无用的主题信息,主题转移矩阵是根据词与主题的相似度和概率分布计算得到。通过主题转移矩阵将主题词向量融入神经网络模型中,使模型可以消除词在不同文本中的歧义。实验证明了得到的文本表示在句子级别的情感分类任务上有更好的表现。第二,提出基于长距离关联的卷积神经网络文档文本表示模型。针对了通常的神经网络模型文本表示无法捕捉文档文本中长距离的语义关系的问题,将整个文档文本的词所对应的主题词向量序列通过长短时记忆网络LSTM层进行处理,得到了包含长距离的语义关系和结构信息的隐藏状态序列,最后通过卷积神经网络提取文本特征,得到文本表示。其中根据是否考虑文档中句子间的语义交互分别给出了文档语义记忆文本表示模型、句子-文档语义记忆文本表示模型两种模型。实验证明了给出的文本表示在文档级别的情感分类任务上有更好的表现。