资源实体及其关系联合抽取方法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:kelong18433
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专业领域资源命名实体识别和关系抽取是对资源描述有关的自由文本进行信息抽取的重要方式,基于实体和关系可以构建出资源库和资源知识图谱,可以更好的促进自然语言处理上层任务的发展。经研究国内外动态发现,当前解决命名实体识别和实体关系抽取问题通常采用神经网络模型,选择高效的文本表征方式可以有效提升模型的训练结果。目前大多研究都是将命名实体识别和实体关系抽取看作两个独立的任务去建模,联合抽取的研究较少但有其实际意义及提升空间。由于实体识别和关系抽取是对相同数据不同阶段的处理,所以模型构建过程中会存在数据重复预处理、模型重复使用、相同人工特征和实体识别阶段出现的错误实体会继续传递到关系抽取模块等问题,影响最终结果的输出。针对当前问题现状,本文的贡献如下:(1)为了减少对人工特征和专业知识的过度依赖,本文构建了基于Bi LSTM+CRF的序列标注模型,利用Bi LSTM进行深度编码,提取文本特征,再结合CRF输出标签序列完成实体识别,同时构建了基于Bi LSTM的关系抽取模型;然后在构建联合抽取模型中通过引入BERT更有效的进行文本表征,形成新的序列标注模型IFT-Joint用于实体关系的联合抽取。(2)提出了一种基于实体信息及关系信息融合标注的联合抽取方法,该方法主要将联合抽取任务转化为序列标注问题,过新定义的标注策略充分挖掘文本中的实体关系,缓解了联合抽取中重叠关系的问题,抑制流水线方式中两个阶段的错误传播,提升整体识别性能。(3)定义了化学资源知识的表示结构,初步构建了化学资源实体数据集并形成了属性字典,由此将抽取到的实体及关系生成便于存储和管理的资源知识集。将本文提出的方法在化学领域实体数据集上进行实验,在同等硬件和软件环境下,本文提出的方法可以提升资源实体及其关系抽取的准确率、召回率、F1值,联合抽取的F1值达到76.55%,资源名称实体识别结果F1值可以达到92.11%,联合抽取的准确率提升了2.91%,本文提出的模型相较于其他模型在训练集达到40%时便可趋于稳定。实验结果表明联合抽取模型可以实现两个子模块的合并来降低数据处理时间和错误数据的传递,且实验还表明本文提出的模型具有良好的稳定性。
其他文献
推荐书籍:《钢铁是怎样炼成的》作者:[苏]尼古拉·奥斯特洛夫斯基著,王志冲译出版社:华夏出版社说起对我影响最深的一本书,非《钢铁是怎样炼成的》莫属。第一次接触到这本书是18岁生日的时候,二哥送给我的生日礼物,扉页上还竖排写着"祝弟弟生日快乐!"我非常开心,很快就把厚厚的一本书读完了,之后一直放在家里。刚上大学那一年寒假回家再去找那本书时,却找不到了。我的小哥告诉我,他把那本书借给女朋友,被弄
期刊
本文采用共沉淀法合成了LiNi(0.6+0.2x)Co0.2Mn0.2(1-x)O2锂离子电池正极材料并对其进行了掺杂改性。研究了络合剂、pH值、反应温度、配锂量、煅烧温度以及元素掺杂(K、Cu、Al)等合成条件对材料性能的影响,通过SEM、XRD等表征以及恒电流充放电、CV、EIS电化学测试对材料的形貌、结构和电化学性能进行了分析。首先采用氢氧化钠共沉淀法合成了LiNi(0.6+0.2x)Co0
精雕细琢出佳品。有效的作文评改成就了优秀的作文。但目前,初中语文教师对作文评价教学的重视力度不够,在作文评改中存在温度缺失、评语空泛、规范性差等诸多问题。只有解决这些作文评价问题,构建形式规范、方式多样、语言丰富、目的明确的作文评价环节,教师才能在作文评价中"评"出新意,学生才能在作后修改中"改"出高度。
孙老师:奥斯特洛夫斯基的长篇小说《钢铁是怎样炼成的》是世界文学中的经典之作。这部作品被视为生活教科书、人生的路标和精神补品,指引、滋养了一代又一代读者。相信每一个读过这本书的人都会对生命的意义和价值有更深刻的认识和理解。下面请同学们畅所欲言,和大家分享你阅读这本书的感受。
期刊
一、知识清单1.主要内容概括《钢铁是怎样炼成的》是苏联作家尼古拉·奥斯特洛夫斯基所著的一部长篇小说。保尔·柯察金,出身于贫困的铁路工人家庭,早年丧父,全凭母亲替人洗衣维持生计。被学校开除后,12岁的保尔到车站食堂当杂役,受尽了各种凌辱。他憎恨那些欺压穷人的店老板,厌恶那些花天酒地的有钱人。"十月革命"爆发后,红军
期刊
随着信息化技术的快速发展和面向服务软件架构的全面推广,数字化智慧学校平台建设吸引了越来越多的研究者和工程技术人员的关注。依托数字化智慧学校平台能够更加全面深入地融合包括教学、科研、校园生活、社会服务等多方面资源和信息,实现校园管理的现代化和智能化。学校后勤管理作为数字化智慧学校管理平台的一个重要组成部分,对全校提供后勤领域及相关业务的服务支持,是数字化学校建设过程中涉及领域最广、人群最多、业务最为
温室效应引起的全球气候变暖日益威胁着人类赖以生存的环境。因此,控制最主要的温室气体—CO2的排放也逐渐成为研究的热点。在二氧化碳(CO2)的捕集过程中,基于醇胺溶液的化学吸收法是目前工业上使用最广泛的方法之一。因此,醇+胺二元体系和醇+胺+水三元体系的理化性质的研究尤为重要,如密度、表面张力、黏度、电导率、声速、折射率等。以上性质研究不仅可以为CO2的吸收模拟过程提供基础数据,也可以为工业中的实际
摩托车在进行排放劣化耐久试验时(简称V型试验),需要进行大量的长时间的复杂检测,而且对驾驶员的驾驶经验要求较高。而在实验室底盘测功机上进行测试,就可以采用对摩托车进行自动驾驶操作。国内在摩托车行业用于实验室的自动驾驶系统的开发还比较少,并且存在不稳定性。在测试过程中速度的控制会出现突然脱离规定范围的情况。如车速在曲线转折点时过度上冲或过度下冲等。基于这种问题,综合了工程成本控制等方面原因进行了一种
8-戊烯基柚皮素(8-Prenylnaringenin,8-PN)是一种强有效的雌激素,具有很高的药用价值,同样也是多种异戊烯基黄酮的前体。微生物合成8-PN主要面临异戊烯基转移酶(Prenyltransferases,PTs)催化活性较低以及前体供给不足等问题,严重阻碍了8-PN在微生物体内的高效的合成。文中以苦参Sophoraflavescens来源的SfN8DT-1为对象,研究如何实现更高效
随着项目管理的广泛应用,项目管理思想被各行各业所接受。对于非标准化产品的供应商,由于其产品具有自身的独特性,往往需要定制生产。为了便于管理,企业可以将一个特定产品的实现过程作为一个项目,项目的内容由该产品的实现过程组成,一般包括产品的研发、设计、生产、测试、交付等环节。以项目管理的方式组织生产的企业,通常称为项目型企业。为了提高生产效率,需要从项目的生命周期出发,将项目按照一定的时间划分成不同的阶