基于图神经网络的生物实体关系抽取

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:gbbzwklk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学作为一门前沿交叉学科,与人们的生命健康息息相关。近年来,随着生物医学领域的快速发展,生物医学文献数量也开始大幅度呈指数增长。隐藏在这些数据中的丰富信息,对生物医学领域的药物研发、疾病预防、数据库构建等都具有十分重要的意义。因此,通过文本挖掘技术处理和分析无结构化的生物医学文献,能够极大地推进该领域的研究发展。关系抽取作为文本挖掘技术的一个重要分支,能够自动地从非结构化文本中抽取信息。目前主流的关系抽取方法是基于深度学习的方法。由于生物医学文献中的句子较为复杂,一些传统的神经网络无法有效学习句子的语义和语法信息。而图神经网络能够直接在图结构上进行运算,为图中的每个节点学习包含本身和邻域节点信息的表示。基于此,针对化合物-蛋白质关系抽取,本文首先提出了一种基于图神经网络的生物实体关系抽取方法。该方法能够根据依存解析图,有效学习句子的序列信息和长距离语法关系。实验结果表明,本文所提出的方法在化合物-蛋白质关系抽取中取得了较好的性能。由于生物医学文本长且复杂,所以句子中通常存在较多的噪音单词,而这些噪音单词会影响关系抽取结果。为了缓解这一问题,本文提出了一个基于多头注意力机制的图神经网络关系抽取模型。多头注意力机制能够根据上下文信息,自动学习句子中任意节点间的相关性。根据节点间的相关性所构建的全连接加权图,不仅保留了句子的完整信息,还能够使模型更多地关注于对关系抽取任务有用的相关子结构。因此,通过全连接加权图,图神经网络能够在学习到关键信息的同时,有效减少不相关信息对模型的干扰。在多个生物医学实体关系抽取任务中的实验结果表明,该方法能够有效降低噪音数据影响,从而进一步提高关系抽取系统性能。在生物医学关系抽取中,有些关系实体对存在于不同的句子中。与句内关系抽取相比,跨句子关系抽取需要考虑更多的文本范围,所以抽取难度更大。针对跨句子生物医学实体关系抽取,本文提出了一种基于集成图神经网络的方法。该方法通过使用两个并行的图神经网络分别在依存解析图和全连通图上进行学习,来捕获更多句内以及句间的语义和语法信息。此外,为了探究语言预训练模型在生物医学实体关系抽取中的应用,本文从语言预训练模型BERT中获取单词的向量表示。实验结果表明,本文所提出的方法在跨句子关系抽取中取得了很好的效果。
其他文献
一直以来,蛋白质结构相似性比较在计算分子生物学中都扮演着至关重要的角色。二十一世纪,是后基因组研究的时代,越来越多的科学家开始关注并积极探索有关蛋白质三维空间结构特征与其生物功能特性之间的关系。传统的蛋白质相似性分析方法主要是一些以序列比对为主的一维生物序列分析方法,这一类算法往往在计算的时间和空间复杂度上具有明显的优势,但同时也有很大的局限性。忽略蛋白质的三维空间结构必然会导致生物信息某种程度上
矩阵的特征值反问题在工程中是经常出现的,它涉及地球物理、大气、海洋、地质、声学、光学、量子化学、量子力学、力学、结构设计、模式识别、参数识别等研究问题中.许多专家、学者针对这一问题进行较为广泛而深入的研究,得到很多成果,有些已用于工程问题或科学计算的实际解决。本文主要对广义Jacobi矩阵的广义特征值反问题以及周期Jacobi矩阵的广义特征值反问题进行了讨论,论文共分成四个部分具体内容如下:第一章
生物信息学的本质是对无规则的数据加以整理、分析、分类,从杂乱的信息中获取有用的生物信息,从而进行序列比较,系统发育的分析,药物设计,生物化学模拟等等。生物信息学研究的主要对象是核酸,蛋白质,分子遗传机制,其中,对生物的成长、发育、繁殖、遗传有密切的关系的核酸和蛋白质结构是生物信息学的主要研究内容。它们不仅能人为再现生物进化史提供科学依据,而且能为医药业、农业、工业产生巨大的经济效益和无法估量的社会
在微分方程定性理论研究中,中心焦点问题是一类重要的问题。对于中心焦点问题的研究最终要依赖于焦点量的计算,因此焦点量的计算是解决中心焦点问题需要研究的最基础的内容之一。后继函数法和形式级数法是计算焦点量的两种经典的方法。本文中利用后继函数法讨论齐四次系统鞍点量问题。对于求一个系统的焦点量,可利用鞍点量和焦点量之间的关系解决求焦点量问题。并用一个新的表示方法即曲线坐标,计算了后继函数公式,在减少计算量
随着陆生微生物在抗生素、酶、酶抑制剂和多糖等生物活性物质方面的大量开发和应用,寻找发现新的种属的微生物来开发新型微生物天然活性物质的难度越来越大,因此,世界各国把研究开发重点转向了前景更为广阔的海洋微生物资源,这成为海洋微生物开发的主要内容。作为海洋微生物资源开发的前提,海洋微生物多样性的研究得到了迅速发展,尤其是随着分子生物学技术的快速发展和计算机的普遍应用,可以在不经培养的条件下研究海洋微生物
随着医学的不断进步、新药物的不断开发,陆栖微生物这一传统的抗生素、酶抑制剂等生物活性物质资源库已接近枯竭。新药物的发现速率明显减慢,科技投入产出率不断下降,人们迫切需要寻找新的药源。海洋微生物是海洋里类群最庞大的生物,已发现的海洋微生物包括海洋细菌、海洋放线菌和海洋真菌等,几乎是应有尽有。海洋微生物的多样性及其所产生生物活性物质的特异性,决定了海洋微生物作为生物活性物质产生菌的潜力是十分巨大的。特
随着激光在生产加工以及生活中的普遍应用,对于激光防护(光限幅)材料的研究也日益成为社会关注的焦点。在材料中引入稀土元素,提高材料的三阶光学非线性,从而提高材料的激光防护性能,本文研究的激光防护玻璃可防Nd:YAG倍频激光(532nm)。首先综述了各种激光防护技术,国内外发展状况及特点,并重点介绍了国内外专家利用不同的稀土元素,不同的浓度混合,以及不同的基质材料等来提高材料的三阶光学非线性。研究了硼
多元函数逼近是一元函数逼近理论的发展,是逼近工具和被逼近对象方面的多元推广.多元逼近理论的研究日益受到数学、计算机科学、物理及工程领域的专家和科技工作者的重视,已成为当今逼近论和计算科学的研究热点之一.本文介绍了该领域的相关概念、理论,并对多元插值问题做了深入地研究和阐述,充分吸收和消化国内外学者关于RS空间插值问题的研究成果,得出关于RS空间插值问题的几个结论.本文包含以下三部分主要内容:第一部
合理的城市功能区规划是城市可持续发展的基础。城市功能区的准确识别是城市规划的重要内容,而当前城市功能区识别方法的相关研究,大多仅基于单源数据分析建模来进行功能区的划分与识别,无法充分利用易于获取的多尺度多来源的数据,为此本文提出了基于多模态机器学习的城市功能区域分类模型MM-Urban FAC,模型部分首先使用SE-Res Ne Xt与自定义结构的DPN结合的双分支神经网络,用来自动挖掘与融合多来
在传染性疾病预防当中,疫苗作为一种可以使机体产生抗体的预防性生物制剂,已成为对抗此类疾病的重要武器之一。疫苗组分中的佐剂具有抗原储存库效应,可辅助增强免疫反应。因此,成为疫苗研发过程中的一个关键步骤。在众多佐剂中,铝盐佐剂是最早获得FDA批准使用的产品之一。由于其安全性好,成本低等优点,被广泛使用。其中,氢氧化铝(Al OOH)纳米佐剂临床研究表明,其佐剂效应与其纳米颗粒形态、结晶度和表面羟基含量