论文部分内容阅读
衔接性和连贯性是句子构成篇章的两个最基本特性。一般而言,衔接性是连句成章的词汇和语法方面的手段,而连贯是采用这些手段所产生的结果。衔接性指语篇中表层结构上的粘着性,是语篇的有形网络;而连贯性指语篇中底层语义上的关联性,是语篇的无形网络。根据功能语言学家Halliday所述,一个连贯的语篇由语义上相关的相似成份连接起来。如果篇章缺乏这种相似成份,必将出现语篇衔接上的缺口,从而导致不连贯现象。篇章连贯性建模旨在对篇章中句子间的连贯性程度建立可计算模型,是自然语言处理的一个基础研究问题,其可以被广泛地应用在许多与自然语言处理相关的应用中,例如:情感分析、统计机器翻译、篇章生成和文本摘要等。早期的篇章连贯性模型主要采用特征工程方法,从文本中提取出表示语义的各种特征,例如:篇章中的实体信息,句法路径信息等,然后进行特征选择,并训练分类器;随着深度学习在语音和图像领域取得巨大成功后,有些学者开始利用神经网络方法构建英文篇章的连贯性模型。但是,目前基于深度学习的篇章连贯性模型没有和早期的基于实体信息的模型进行有效融合,以突显篇章中实体在充当篇章衔接性的重要作用;同时,现有模型主要基于英文篇章,对中文篇章的连贯性模型研究比较缺乏。基于此,本文的工作主要体现在以下两个方面:1)首先,本文提出基于时间递归神经网络篇章连贯性模型,同时将篇章中的实体进行了分布式表示,并有效地融合了篇章中句子间的实体信息,通过中文句子排序任务和机器翻译连贯性评估两个任务上的实验结果表明了该方法的有效性;2)其次,本文提出基于双向LSTM(Long Short Term Memory)的篇章连贯模型,抽取篇章中相邻句子的实体信息,将其分布式表示,然后将此信息通过多种简单且有效的向量操作方式融合至句子级的双向LSTM深度学习模型中。通过中文和英文句子排序任务和机器翻译连贯性评估两个任务上的实验结果表明了该方法的有效性;总体而言,本文基于深度学习技术,探索了篇章的实体衔接性对连贯性建模的重要作用,提出了相关问题的一些解决方法,并通过实验验证了方法的有效性,对今后的汉语篇章连贯性建模具有一定的借鉴作用。