论文部分内容阅读
实体关系抽取旨在从大规模语料中抽取给定实体之间的语义关系,是知识库构建和智能问答等自然语言技术的重要基础。复述是指自然语言中的同质异构现象,用以描述语义相近但语法结构不同的句子。本文结合复述识别的相关技术,针对关系抽取语料缺乏和关系表征模型信息量不足的问题作出以下优化:(1)基于复述约束的远程监督关系抽取针对实体关系抽取训练语料匮乏的问题,本文提出一种基于复述约束的远程监督关系抽取。首先通过远程监督方法扩展语料,在此基础上引入关系类型的定义,以定义语句作为关系类型的语义约束,利用复述识别方法,判定扩展样本与定义语句之间是否存在复述关系,从而对不满足复述关系的样本进行过滤。实验证明该方法优于现有前沿的监督学习模型性能,并在一定程度上缓解了远程监督带来的噪声影响。(2)融合多粒度信息的关系表征模型针对传统关系抽取模型中的错误累积,以及现有深度学习模型在表征能力上不足的问题,本文提出一种融合多粒度信息的卷积循环神经网络模型。该模型综合利用卷积神经网络抽取多粒度局部特征的优势和循环神经网络捕获序列信息的能力。同时,通过注意力机制、逐元素最大池化等多种融合策略对多粒度特征进行融合。实验证明,该方法在不添加任何额外信息的基础上,取得优于主流关系抽取系统的性能。(3)基于定义语约束和注意力机制的多实例模型上述基于复述约束的远程监督关系抽取方法面临样本过滤中的“误伤”问题,针对这一问题,本文提出一种基于定义语约束和注意力机制的多实例模型。利用多实例学习策略,将包含相同实体对的不同实例统一建模,并通过注意力机制计算关系类型定义和不同关系实例之间相关性,从而利用权重提高相关实例的重要性,同时弱化不相干实例。实验结果显示,基于定义语约束和注意力机制的模型在关系抽取任务中取得了优于现有前沿模型的性能,表明定义语约束能够有效缓解远程监督中的噪音问题,提高关系抽取性能。本文引入关系类型定义,通过定义语句约束远程监督方法中产生的噪声数据,分别从样本过滤和多实例建模两个角度优化关系抽取系统,两类算法都取得了一定的效果。其中基于注意力机制的多实例模型效果明显,在TAC-KBP数据集上F1值比基线模型提升2%。同时,本文还分析了现有神经网络框架在关系实例表征上的优劣,并在此基础上提出一种新的神经网络架构用来表征关系实例,该方法在关系抽取语料集上取得了优于前沿方法的性能。