论文部分内容阅读
文本表示研究是自然语言处理领域基础的研究课题之一。词是文本中基本的语义单元,传统的词表示方法无法全面反映其所蕴含的语义信息,针对特定的自然语言处理任务,研究者们需要精心设计词的特征表示,以提升系统性能。近年来,随着设备计算能力不断增强,深度学习方法兴起,研究者们通过神经网络模型训练出词的分布式表示。词的分布式表示具有较强语义表达能力,可以反映词之间语义上的联系。本文主要研究如何利用词的分布式表示加强对文本内在语义的表达。主要研究内容分为如下几个方面:(1)本文基于词的分布式表示,提出对传统文本表示模型进行改进的方法。该方法采用词扩展策略,对文本的表示特征进行扩展。与传统基于词典进行词扩展不同,本文基于词的分布式表示挖掘词之间的语义关系,不需要借助专家构造的词典,只需要对大规模无标注文本进行训练即可。实验表明改进后的文本表示在文本主题相关度判断上的优势。(2)本文基于词扩展后的文本表示模型,提出一种对文本进行主题偏移分析的方法。将学生作文看成对题目进行文本表示的过程,分析某篇作文是否存在主题偏移问题。基本思路为:首先,通过中心向量法自动选取作文集合中的范文;然后,基于词扩展后的文本表示模型计算每篇作文与范文的相似度;最后,将相似度与偏移阈值进行对比,从而判断该作文是否跑题。为了提升主题偏移分析的效果,本文提出一种基于作文集合发散度动态生成偏移阈值的方法。实验结果表明,相较于设置固定阈值,动态生成阈值的方法有着更好的主题偏移判断效果。(3)本文基于词的分布式表示,提出一种对评论文本进行层次表示的方法。本文分析了现有方法的不足,提出利用“层次化属性词+情感词”进行表示。本文重点研究属性词的自动挖掘和层次化表示方法。首先,利用词的分布式表示和上下位关系矩阵挖掘种子词相关的属性词集合;然后,借助知识库和先验知识构建属性词之间的层次关系;最后,本文提出一个混合模型对层次关系进行补充。整个过程只需要少量人工参与。实验结果表明,上述方法能够有效的挖掘种子词相关的属性词,并对属性词进行层次化表示。基于此,本文实现了一个用户评论层次表示系统。