基于深度学习的实体关系抽取研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:yufeng_09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取是自然语言处理领域中处理非结构化文本的重要方法,能够从非结构化文本中提取出有效的实体对和关系,形成(头实体,关系,尾实体)的关系三元组结构,进一步生成实体关系网络,是搭建知识图谱及后续拓展研究的技术基础。生物医学领域存在大量的非结构化文本,同时业界对这些文本的分析处理也有浓厚的兴趣,因此本文选择该领域作为应用场景。随着深度学习技术的发展,基于深度学习的实体关系抽取方法较传统的特征提取方法取得了更好的成绩。然而,训练深度学习模型需要大量标注数据,但目前实体关系抽取领域普遍存在标注数据偏少的问题,现有的模型也存在实体提取和关系抽取两个子任务间联系较弱、对重叠三元组处理效果欠佳的问题。本文针对上述问题,进行了相应的研究与改进。针对缺乏标注数据的问题,本文首先借助远程监督方法,利用知识库自动生成数据标签,再使用提出的RLDN-RL模型对生成的标注数据集进行降噪处理,从而达到优化数据集质量的目标。本文选择CTD和Open KG生物医学知识库,并从Pub Med生物医学文献数据库获取非结构化文本,然后对齐到知识库中的三元组,自动获取标签。由于使用远程监督方法生成的标注数据集中存在大量噪声,本文采用基于规则和强化学习的方法分别对标注数据集中的负样例和正样例进行降噪处理,获得更高质量的自动标注数据集。针对实体提取和关系抽取两个子任务间联系较弱、模型处理重叠三元组效果欠佳的问题,本文提出了TagRE系列模型,采用联合抽取方法和重新定义子任务的方式加以处理。TagRE模型使用联合抽取的方法,同时抽取句子中的实体和关系,避免了将两个任务分隔开而导致的子任务间缺乏关联的问题。该模型还重新划分了子任务的分割方式,采用先提取句子中的头实体,再根据不同的关系类型预测尾实体的方式实现三元组的抽取。以对不同的关系类型分别建模的方式,从原理上优化了模型对重叠三元组的抽取效果。基于上述数据来源获取的结构化三元组信息,本文设计并构建了生物医学知识图谱,以图形化的界面展示所有三元组,并搭建了实体关系查询与关系三元组预测模块,为科研工作人员及医学工作者的研究和工作提供了便利。
其他文献
学位
随着无人船集群技术的加速发展,海上无人系统的研发与训练也变得至关重要。有效的海上无人系统能够打破单船能力的局限性,协同集群中每艘无人船从而激发出整个集群的力量。然而训练海上无人系统需要大量且有效的无人船实验数据,无人船实验数据的获取不可避免地受到时间,环境,人力,财力等多种因素的限制,如何在短时间内低成本地获取海量训练数据将成为传统无人船训练系统一项新的挑战。本文经过对无人船训练系统的研究和分析,
学位
近年来,随着数据资源和计算能力的增长,机器学习快速发展,被应用到各个领域,例如:图像识别、行人检测、航空监管等等。在机器学习训练阶段使用的数据越多,则预测阶段机器学习模型精度越高。然而,海量数据的使用对本地计算资源带来了挑战。得益于云服务的应用,大量的机器学习的训练和预测都被外包到云服务器上进行。然而云服务自身数据安全事件频发,这加剧了公众对于数据泄露的担忧。为了解决云服务环境下机器学习中的数据泄
现如今,随着人们的生活压力和工作压力的不断提高,人们的健康问题日益凸显,据统计数据显示中国人民约70%的人处于亚健康状态,因此关注自身健康变得愈发重要。目前健康管理的理念逐渐走进人们视野,并且健康管理的国内市场也逐步火热。健康管理中比较重要的一部分就是营养摄入平衡,而人体每日所需营养中通过液体摄入的不占少数,例如水,维生素,蛋白质等,因此液体检测技术作为营养监测的一种途径显得尤为重要。液体检测技术
随着异构无人系统的应用越来越广泛,多机器人协同成为趋势,而异构多机器人协同的基础是要实现异构平台或设备的互联互通并进行有效的信息交互。但是由于执行协同任务的无人系统并非来自于同一生产厂商的同一型号,所以无人系统间建立互联互通就会带来诸多问题。比如最常见的由于无人系统间接口标准、数据传输方式以及能力的不同,使得无人系统表现出很强的个体异构性,影响无人系统的通信效率,为了屏蔽异构性,通常的实现方式是将
随着数字化时代的到来,人们在问答系统、智能客服、信息检索、文本复述、机器翻译等人工智能领域的需求日益增长。为了提供高质量、高效性的服务,无数学者投入到文本语义匹配的相关技术研究中。作为自然语言处理领域的一项基本问题和研究热点,过去文本语义匹配问题的相关研究主要是基于统计机器学习技术的。该类语义匹配模型需要消耗大量的人力成本才能挖掘出文本潜在的特征。随着深度学习技术的日新月异,文本数据的特征提取不再
多标签文本分类作为自然语言处理领域的一项基础任务,广泛应用于情感分析、问答系统和推荐系统等领域。本文主要研究基于深度学习的多标签文本分类,通过深入分析了多标签文本分类的难点并从当前的国内外研究现状中受到启发,提出了两种多标签文本分类模型:1.本文第一个模型提出一种融合标签注意力机制和自注意力机制的方法来获取文本特征表示,同时在模型预测层加入了关系网络来获得标签间的相关性。标签信息对文本分类起重要作
随着人工智能技术的不断进步,现有机器模型已经基本达到了感知智能,正朝着认知智能前进。自然语言处理是智能认知的基础,是学界和工业界的研究热点。为了满足社会对各种语言的需求以及世界各国日益频繁交流更加的便捷,价格低廉的机器翻译研究正在逐渐兴盛。随着深度学习技术的持续提高,机器翻译也逐渐融合了这些方法和策略,并且在多个任务中斩获不错的成绩。但是还存在一些不足的地方。首先,大多数的翻译模型都基于注意力机制
飞机在结冰气象条件下飞行时,机翼、尾翼、发动机、传感器等核心部件易发生结冰现象,其中机翼结冰不仅会影响飞机的气动性能,严重时还会导致飞行事故的发生。因此,开展飞机结冰原理研究、预测翼型结冰及其气动特性变化具有重要意义。当前飞机结冰预测方法主要包含飞行试验、风洞试验以及数值计算等方法,这些方法往往存在预测周期长、所耗资源大等问题,无法实现快速、高效地预测。对此,本文利用深度学习开展翼型结冰相关研究,