论文部分内容阅读
篇章关系识别是浅层篇章结构分析中富有挑战的子任务,其旨在判断同一篇章内的两个文本片段(简称“论元”)间的语义关系。作为自然语言处理领域的一项基础任务,篇章关系识别对上层应用具有一定价值,如基于论元之间的篇章关系生成相应问答对以辅助自动问答任务。宾州篇章树库数据集是英语篇章关系识别领域目前最大的权威语料库,其为篇章关系构建一个三层的语义关系体系。此外,依据两个论元间是否存在连接词,宾州篇章树库将篇章关系识别任务分为显式篇章关系识别和隐式篇章关系识别。目前,显式篇章关系识别仅靠连接词特征即可达到93%以上的准确率,已具备一定实用性。但隐式篇章关系识别性能仍然较低,其由于缺乏显式连接词等线索,更依赖于对论元语义的深度理解。本文针对隐式篇章关系识别任务展开研究,提出一种基于数据增广与论元表征的隐式篇章关系识别方法。具体内容包括下述三个方面:(1)基于数据增广的隐式因果关系识别现有方法通常使用神经网络模型对隐式篇章关系进行分类,其依赖于高质量、大规模的训练语料。然而,宾州篇章树库语料中的隐式篇章关系样例数量较少,导致模型对隐式篇章关系识别性能较差。针对这一问题,前人通常使用连接词构造模板,以挖掘外部显式篇章关系语料,删去其连接词作为伪隐式篇章关系语料。但删去连接词会造成一定的语义改变问题,直接将这类数据加入隐式篇章关系训练集会对神经网络的训练起到误导作用。为了挖掘更高质量的隐式篇章关系语料,基于问题与其答案间的固有关系,本文采用WHY式问答对构造伪隐式因果关系语料,并使用主动学习方法从中筛选高信息量的样例用于扩充隐式因果关系训练集。在PDTB数据集上的实验结果表明,该方法在隐式因果关系上的分类性能优于目前先进数据增强方法,其F1值达到52.19%。(2)基于图卷积神经网络的隐式篇章关系识别方法现有研究通常构建复杂的神经网络模型以提升隐式篇章关系识别性能,但前人往往仅使用论元间的交互信息,而忽略了论元本身的关键信息。针对这一问题,本文提出一种基于图卷积神经网络的隐式篇章关系识别方法。该方法基于预训练语言模型BERT进行微调以对论元进行编码,并将论元特征表示拼接作为图的特征矩阵。同时,对论元表示进行自注意力和交互式注意力分数计算,拼接注意力分数矩阵作为图的邻接矩阵。该方法构造两层图卷积神经网络,根据论元自身信息和交互式信息对论元表示进行更新,以得到有助于隐式篇章关系识别的论元特征。本文在PDTB数据集上进行实验,二分类实验结果表明,该方法在偶然关系和扩展关系上超越目前先进方法,F1值分别达到60.70%和74.49%。同时,该方法在四分类评测中,相较于现有前沿方法,达到了具有竞争力的性能水平。(3)隐式篇章关系识别系统结合前文隐式篇章关系识别方法的研究,本文基于前端框架Vue、Bootstrap和后端框架Tornado搭建了隐式篇章关系关系识别系统。该系统提供四个功能接口,用户输入两个论元并点击篇章关系识别按钮,系统即可结合本文所提基于图卷积的隐式篇章关系识别方法,对两个论元之间的篇章关系进行分类并返回给用户。该系统展示了本文的研究工作,且对其他自然语言处理领域具有一定辅助作用,如通过篇章关系辅助情感分析任务性能的提升。本文从数据增广和论元表征两个方面,通过上述方法在一定程度上缓解了隐式篇章关系数据稀疏问题,以及模型在对论元进行表示时,难以准确学习到其蕴含的语义信息的问题。此外,本文开发了隐式篇章关系识别系统以展示本文研究工作。