基于特征融合的文本实体及其关系挖掘

来源 :河北科技大学 | 被引量 : 0次 | 上传用户:xczsb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,大量文本充斥着人们的生活,信息提取可以帮助人们快速地获得重要信息,信息提取的研究也变得越来越重要,而实体识别和关系识别是信息提取的基础技术,同时实体和关系的提取也是构建知识图谱、实现语义搜索、建立智能问答系统等应用领域中必不可少的关键技术,具有极其重要的研究价值。因此本文对实体和关系联合提取分别从参数共享和联合解码两个方面进行了研究,并且构造了一个旅游领域内实体和关系联合提取的原型系统,具体内容如下:(1)提出了一种多特征融合的参数共享实体和关系联合提取方法。在之前,多数实体和关系联合提取模型只是依赖了Bert预训练模型获得词双向特征,而忽略了句子特征和字符特征,因此,提出了一种融合字符、句子和词特征的共享参数实体和关系联合提取的模型。我们的方法将通过多层卷积神经网络(CNN)提取字符特征,使用不同大小卷积核的卷积神经网络提取句子特征,使用Bert预训练语言模型提取词的特征,这样可以更好地捕捉句子中的各种特征,同时在训练中使用负采样的方法提升模型的鲁棒性。(2)提出了一种基于实体注意力机制的联合解码的实体和关系联合提取方法。在之前的实体和关系联合提取方法中,联合提取模型没有很好地利用实体和关系之间的信息,因此,提出了一种基于实体注意力机制的实体和关系联合提取模型。我们的模型将通过双向长短记忆网络(Bi-LSTM)获得词在句子中的语义特征,通过实体注意力机制动态提取实体中对关系提取重要的词和类别特征,提高实体和关系联合提取的互动性。(3)构建了旅游领域内实体和关系联合提取的原型系统。之前旅游领域中的实体识别和关系识别是使用传统的有监督方法,依赖于大量手工标注的数据,耗时费力,消耗巨大,因此使用了一种基于Bi-LSTM和CRF的实体和关系联合提取模型。模型利用Bi-LSTM的方法以最小的手工依赖来学习词的特征,利用CRF优化实体识别中序列标注结果。模型利用Bi-LSTM提取词的特征、实体识别后的实体特征、实体对间的距离特征,完成模型的关系识别,实现旅游领域实体和关系联合提取,并使用该模型完成了旅游领域内实体和关系联合提取的原型系统。实验验证,本文提出的方法是有效的。基于多特征融合的实体关系提取中实体和关系的F1值分别达到了86.62和72.29;基于实体注意力机制的模型也可以有效的进行实体和关系的识别;在旅游领域使用的基于双向长短记忆网络和CRF的模型也可以完成实体和关系的提取,并成功构建了旅游领域内实体和关系联合提取的原型系统。
其他文献
全球性的电力工业市场化改革与清洁能源转型为电力系统管理、规划和运行方式带来了深刻变革。保障系统发电容量充裕性作为其中重要一环也同样面临着新挑战。市场环境下,发电容量充裕性不再仅仅是工程技术问题,也是经济和社会问题。世界范围各电力市场已经对利用价格信号引导发电长期投资、保证发电容量充裕性做出了一些尝试。但这些容量保障机制是否能有效应对电力市场现实问题,在高寡头企业占比和高可再生能源占比的电力市场中还
云景公司主要致力于人工原料林基地建设及制浆技术研究,2014年已建成生活用纸生产线,打通林浆纸一体化的产业链。但由于企业产品结构单一,随着产品同质化竞争的加剧及消费者
目的:自闭症谱系障碍(autism spectrum disorder,ASD)是一种神经系统发育障碍性疾病,可影响多达1%的儿童。ASD的核心病征是社交障碍、兴趣狭窄和行为刻板重复,但其在临床表现及脑结构与功能改变方面仍存在较大的异质性。以大脑皮层体积(cerebral cortical volume,CCV)为例,大多数研究报告了 ASD患者与健康对照之间的CCV存在显著差异,但报告的存在差异
本文介绍了电液伺服系统研究现状和发展历史,分析了所研究系统的非线性特性和影响性能的几个因素,并针对含有输出约束限制条件的系统进行控制器的设计。对于非线性系统,相较
研究背景:脓毒症是全身炎症反应引起的综合征,脓毒症晚期全身多器官功能发生障碍常常危及生命健康。全世界范围内,脓毒症仍然有较高的发病率和病死率,并给社会带来巨大的负担。大脑是脓毒症易累及器官之一,脓毒症时脑损伤的严重程度与患者预后密切相关。因此,针对脓毒症相关性脑病的防治研究具有重要意义。线粒体是细胞能量和代谢的核心,通过氧化磷酸化为细胞正常生理活动提供能量。线粒体功能异常与脓毒症引起的器官功能障碍
随着电动汽车的发展,投入市场最早一批的新能源车动力电池性能大幅下降,基本处于淘汰的临界点。如何对退役动力电池开展梯次储能利用,对电动汽车行业的可持续发展和电池资源的有效利用等问题具有很重要的意义。但动力电池的梯级利用一直存在着诸多争议,争议点主要在技术不成熟、安全问题疑虑多、难以规模化应用、无标准规范约束等问题。面向家庭储能的退役动力电池梯级利用不需要复杂的技术支撑,无需对退役电池进行拆分重组和一
元素添加是一种开发新合金的重要手段,会对合金体系的力学性能、物理性能、化学性能等产生多种影响。在非晶合金体系中,非晶形成能力对合金成分也非常敏感,因此元素添加对于提高非晶形成能力,改善性能具有非常重要的科学意义和广泛的应用价值。本文研究了Ag元素添加对Zr Co Al非晶合金形成体系的非晶形成、热稳定性、晶化行为以及硬度进行了研究。通过单辊急冷法和铜模喷铸法制备了非晶合金样品,在不同温度下进行真空
当前,国际投资争端解决体制正面临着“合法性”危机,这主要是由于投资仲裁庭不合理地解释投资协定造成的。“合法性”危机正引起国际社会的担忧和不满,为解决这一危机,学术界
目的探讨采用改良线栓法,以家兔为实验对象的局灶性脑缺血模型的建立。方法采用随机数字表法,造模前将45只健康清洁级成年新西兰家兔分为假手术组(5只)及模型组(40只),用自制
在输电线路杆塔上装设各种在线监测设备是建设智能输电线的基础性工作,其对电源的功率需求很小,一般为几瓦~几十瓦。由于很多监测设备所处的环境受到限制,无法直接利用市电,由于绝缘问题,也很难从输电线路上取得电源后直接传递到杆塔。目前比较常用的是风光储方案供电,即风能、太阳能以及蓄电池协同通电。但锂电池在低温环境中存储的能量随温度降低而减小,在高寒地区风光储的方案不能使用。针对以上问题,本文提出了一种新型