论文部分内容阅读
文本语义语义特征提取是众多自然语言处理应用的基础。它的目的是从非结构化的文本中提取出丰富的语义信息,以便于计算机的进一步计算和处理。文本语义语义特征提取为文本理解提供了基础,本文通过挖掘文本语义特征中深层语义信息,构建丰富的文本语义特征信息,并基于这些语义特征信息设计文本理解方法。当前,大多数文本语义特征提取方法通过利用神经网络语言模型来生成文本表示。这些模型采用统计文本中单词的词频或概率分布,将单词及其词频或概率分布表示成语义空间的形式来构建出文本语义表示模型。但是基于这些传统的文本语义表示模型来文本语义理解时,看似存在语义相似度的单词之间,从不同的角度理解会存在不同的意思。同时,英语文本中的单词语义由于受到特定的上下文语境影响,要准确的理解它们存在着较大的挑战性。传统的英语文本语义理解方法没有基于文本概念语义特征去设计其语义理解方法,在理解英语文本的深层次语义时存在准确性差的问题。本文从两个部分来研究,首先,从当前文本语义特征提取的基本方法和理论入手,提出了概念化的混合特征关键词提取方法,着重分析了概念语义特征提取中,文本关键术语及其上下文概念之间的关系,并挖掘术语及其概念的属性关系。同时,在挖掘文本关键术语词的基础上,对术语词在文本中的语义关系进行分类和提取,并结合关键术语、概念以及它们之间的语义关系构建丰富的文本语义特征表示。在第二部分,结合先前部分提取的文本语义特征,设计文本语义理解方法,在理解方法上,着重强调了针对特定的语义理解任务设计理解模型,并结合注意力机制对模型进行改进,最后在相关数据集上验证模型的有效性。具体来说,本文的主要工作可以总结为以下几个方面:首先,本文研究了基于概念的混合特征关键词提取方法,着重研究了英语文本中关键词或短语及其概念的提取方法。提出结合Text Rank算法的文本关键词提取方法,该方法通过对文本词向量和段落向量联合训练的方式获取文本表示,引入Text Rank算法对关键词或短语节点进行类聚,通过节点之间的跳转概率矩阵学习节点权重得分,最后通过打分函数生成关键词或短语得分排序,结果显示该方法在几种公开数据集上以相对低的计算复杂度,获取较准确的关键词或短语。同时,我们在短文本数据集,如Twitter数据集,以及长文本数据集,如南方周末文章数据集上分别进行测试,实验结果表明我们的方法在短文本关键词或短语的提取上取得了较好的准确性,同时在长文本关键词的提取上具有竞争性。其次,本文介绍了一种基于词嵌入和知识库注意力的双卷积神经网络的文本语义依存关系提取模型。该模型通过引入知识库注意力,丰富了语义监督信息,同时,本文使用两个独立的卷积神经网络分别对文本中实体词向量和知识库中获取的监督信息进行学习,并将两个卷积神经网络的隐藏层输出在全连接层进行拼接。通过这一过程,模型不仅能够获取实体表示,而且依靠丰富的知识库背景知识获取更加全面的实体间关系表示。通过跟现有的相关方法在公开数据集上进行实验比较,我们的模型在语义依存关系提取任务和句子关系分类任务上取得较好的表现。第三,本文提出了结合文本概念化和注意力嵌入的文本理解方法。针对英语短文由于词汇量少,语义较为稀疏的问题,该方法基于知识库中概念化的文本表示构建注意力编码器。具体来讲,对于每一个英语短文,通过提取关键实体词并进行概念化,概念化是通过实体词及其所属概念的共现来实现,同时依赖知识库获取与文本概念相关的其他概念和关系,并将概念映射到低维向量空间来获取概念化空间编码。最终,联合概念空间和注意力编码空间设计文本理解方法。我们分别在New York Times和Twitter数据集进行信息检索实验任务,结果表现优于当前方法。同时,我们设计了三种评价指标分别在WWW2015和Coling2016数据集上进行观点检索实验,各项指标都具有较好的表现。第四,本文提出了多粒度分层特征的问答理解方法。该方法将问答理解中文本和问题的语义特征的提取分成两个部分,分别为传统的语言模型和深度匹配模型,并将这两个部分所提取的语义特征结合构建相似度矩阵,同时,设计了三种不同的模型对相似度矩阵进行学习,分别为相似度矩阵特征连接,相似度矩阵独立学习和相似度矩阵问题学习。该方法从多个角度学习到更多文本特征,在问答理解任务中取得较好的效果。通过对Wiki QA公开数据集的实验测试,增加多粒度层次的特征学习方法,提高了问答理解任务中答案的准确率。