论文部分内容阅读
篇章关系分析是自然语言处理领域的一个重要研究方向。在篇章分析领域,篇章是指由一系列语义上连贯结构上衔接的论元,经过结构化组织形成的自然语言文体。其中,论元是具有独立语义的论述单元。篇章关系是同一篇章内,毗邻或跨度在一定范围内的两个论元之间(称作“论元对”)的语义逻辑关系(如,“因果”等)。篇章关系分析旨在对同一篇章内两个论元之间的语义连接关系进行自动识别和判定。宾州篇章树库根据两个论元之间是否存在显式的连接词(称作“线索词”,如“因为”、“然而”等),将篇章关系划分为显式篇章关系和隐式篇章关系。显式篇章关系因具有显式连接词可直接指向特定的篇章关系而易于推理,然而隐式篇章关系由于缺乏显式连接词导致推理难度较高。本文针对推理难度较高的隐式篇章关系,提出一种基于框架语义的隐式篇章关系推理方法。该方法根据“论元语义平行,则篇章关系平行”的理论假设(即“显式论元对”和“隐式论元对”在语义层面上相似,则两个“论元对”的语义关系相同),借助信息检索技术,从大规模静态语料中挖掘与待测“隐式论元对”平行的“显式论元对”,构建无监督的隐式篇章关系推理系统。主要研究内容包括以下三个方面:1)基于框架语义对的隐式篇章关系推理由于现有的隐式篇章关系推理方法脱离了论元的语义信息对隐式论元进行关系分析,仅局限于论元特征的关联分析。针对这一问题,本文有效利用框架语义知识库及其相关识别技术,实现论元语义框架的自动识别。在此基础上,借助大规模文本中框架语义对之间关系的分布概率,进行论元语义一级的关系判定,从而提高最终的隐式篇章关系推理性能。2)基于框架语义向量的隐式关系推理仅通过框架语义对之间关系的概率分布推理隐式篇章关系,不能表述论元的整体语义概念。基于此,本文提出一种基于框架语义向量匹配的平行关系推理方法。利用框架语义学,将论元抽象为概念一级的语义描述(简称“框架语义向量”),实现描述形式的压缩。基于大规模静态数据,通过框架语义向量的匹配挖掘可比较“论元对”辅助关系推理。3)基于局部框架语义森林的隐式关系推理优化现有的隐式篇章关系推理方法并未考虑论元所在的上下文环境,然而上下文信息对论元之间篇章关系尤其是隐式篇章关系推理的影响是不容忽视的。因此,本文提出一种基于局部框架语义森林的隐式篇章关系优化方法研究。通过对“论元对”及其所在的上下文构建局部框架语义森林,并融合待测“论元对”和候选“论元对”之间的框架语义向量相似度和上下文环境相似度,形成局部框架语义森林相似度,推理待测“论元对”的隐式篇章关系类型。