论文部分内容阅读
实体与关系提取作为信息抽取领域的重要研究课题之一,其主要任务是从非结构文本中抽取出命名实体并判断其类型,以及识别一对命名实体是否存在联系并判断其关联类型。高精度实体与关系提取模型的构建,既是知识图谱、智能搜索、自动问答等自然语言应用的基础,同时也能为金融、医疗、电商等垂直领域做出贡献。随着数据时代的迅猛发展与网络信息的飞速扩张,人们对海量数据的信息抽取有了更为迫切的需求,不同于较难作用于大量文本数据的传统机器学习方法,深度学习因其强大的特征表达与参数学习能力更利于实体与关系提取模型构建,已经成为现今的研究热点。本文对基于深度学习的实体与关系联合提取模型展开研究,通过分析现有模型的不足,有针对性地构建出表达能力强、提取精度高的联合提取模型,主要工作包括以下几个方面:1)整理现有的实体与关系提取模型,完成单实体、单关系以及联合抽取模型的研究现状总结与分析,指出现有模型的缺陷与不足。2)针对现有评价指标的不统一性与不明确性,对其定义进行完善,并概括出三类评价指标,更便于对模型性能进行评估与衡量。3)针对模型结构的缺陷,实现多头选择联合提取基础模型,通过参数共享编码层实现实体与关系子任务间的依赖,并对关系子模型的标注策略进行了改进,使得模型能够同时进行实体与关系的抽取,从而降低子任务间累积误差带来的影响;针对基础模型中文本表征与梯度回传的缺陷,提出一种基于语言模型嵌入(Embeddings from Language Models,ELMo)的残差多头选择联合提取模型,使用ELMo动态嵌入来降低多义词与未登录词带来的影响,并利用高速路网络与残差网络、梯度裁剪优化算法解决梯度消失与梯度爆炸问题;通过实验仿真对其性能进行了验证。4)针对编码层与关系抽取特征表达的缺陷,提出一种基于改进子句的多头自注意力联合提取模型,在编码层增添多头自注意力机制,既完成句子内部结构特征的抽取,又实现不同子空间信息的构建;在关系得分层将两种子句信息分别与实体对信息结合,提升实体对间关系特征表达能力;通过实验仿真对其性能进行了验证。