面向多文本粒度的生物医学关系抽取研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:seacowo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学关系抽取旨在发掘生物医学文献中基因、疾病、蛋白质及药物等实体之间的关系,是生物医学信息抽取的关键环节,为生物医学领域知识库的构建与维护奠定基础。本文按照实体所在文本的不同粒度,从句子级和篇章级文本两个角度分析生物医学关系抽取,具体对药物-药物关系抽取和药物-疾病关系抽取两个典型任务展开了研究。药物-药物关系抽取任务指自动抽取同一句内两种药物之间存在的相互作用。不同于传统关系抽取任务,该任务句子长度长、修饰词多、结构复杂,包含许多冗余信息,增加了实体关系抽取的难度。针对该问题,本文提出了一种融合依存信息注意力机制的药物关系抽取模型,使用注意力机制对原句的语义信息和最短依存路径的句法信息进行融合,即从句法结构的角度衡量句子中各部分对于实体间关系的重要性,捕捉句中对实体间关系有用的信息,并结合SCIBert预训练语言模型编码词向量,在DDIExtraction2013语料上进行了实验评估,模型F1值为81.76%,达到目前最好性能。药物-疾病关系抽取任务指自动抽取文章中药物诱发疾病的实体间关系。相比于句内关系抽取,其特点在于1.篇章级关系抽取任务存在许多跨句的实体间关系。2.同一实体在文中可能出现多次并存在多种不同的表示方式,即实体存在多个提及。现有研究方法对于远距离上下文语义的学习能力不佳,其次融合多个实体提及的方式可能会导致信息丢失。因此,本文提出了基于多注意力机制学习全局语义表示的篇章级关系抽取模型,设计全局上下文感知注意机制来获取整篇文章的全局语义,同时利用全局实体感知注意机制来融合目标实体所有提及对的信息。我们的模型在BioCreAtIvE V CDR数据集上实验验证,模型F1值为60.1%,其中句内和句间关系抽取F1值分别为65.5%和42.9%。综上所述,针对不同文本粒度关系抽取任务的特点,本文提出融合依存信息注意力机制的句子级关系抽取模型和学习篇章全局语义表示的篇章级关系抽取模型,分别在DDIExtraction2013和BioCreAtIvE V CDR数据集上实验验证了本文模型的有效性。
其他文献
随着现代保险行业业务范围的拓宽,保险在当今社会已经发展成为一股重要的力量,与经济的联系越来越紧密。然而,保险行业是一个风险高的行业,存在着信用风险、流动性风险、利率
货币金属(CuI、AgI、AuI)因为有独特的d10电子构型,可以抵抗金属间的相互作用力,增强金属间的相互作用,因此可以构筑多样的金属簇合物。由于Cu(I)离子在空气中容易被氧化、自组装过程难以控制等原因,炔铜(I)簇的构筑有待进一步发展。我们利用不同的合成方法,构筑了一系列的炔铜簇,并通过单晶X射线衍射确定了其结构。研究的主要内容有:(1)利用归中反应的方法,以Cu(II)盐、Cu(0)粉末和叔
近年来,随着计算机性能的不断提升与互联网文本所蕴含的信息的快速增长,将Web信息结构化、知识化,构造由概念、实体、关系所构成的语义网络——知识图谱,并基于此构建自动问
互联网的普及给人们的生活带来了巨大地改变。现如今,在社交平台上分享自己的日常动态成为人们生活的一部分,但由于用户疏漏等原因,这种分享行为背后,有时会造成个人隐私泄露
自1972年光催化产氢现象被发现以来,半导体光催化技术被看做是应对能源危机与环境污染这两大全球性挑战的最重要手段之一。为推动光催化产业的规模化、工业化,有必要对光催化材料的制备、表征及其基本原理进行深入的研究与探索。基于火焰喷雾热解技术(FSP)在制备纳米催化剂方面具有快速、可控、高通量等优点,但两相甚至多相结构催化剂的火焰合成与调控仍是亟待解决的难题。本文首先采用FSP合成了具备高产氢活性的Cu
随着信息社会的到来,公民享受着个人信息所带来的便捷服务,同时也有着信息被泄露的担忧。信息一旦被泄露,随之而来的是网络诈骗、敲诈勒索等相关犯罪,严重危害公民的人身安全
由金属配位键构建的配位分子容器具有的独特内空腔结构,可以为客体的包容提供特殊化学微环境,使其具有许多独特的应用,例如:小分子传输、气体存储和分离、传感、催化以及客体
土壤碳库是陆地生态系统最重要的碳库之一,其微小的变化都可能对全球气候产生重大影响。森林土壤的碳氮循环过程与其林下植被相互影响,研究林下植被和土壤之间的相互作用如何影响森林土壤碳储存具有重大意义。因此,本研究以亚热带常绿阔叶林和寒温性针叶林为对象,通过去除森林地面苔藓植物,来探究其土壤理化性质,土壤有机碳(SOC)及微生物磷脂脂肪酸(PLFAs)特征,为森林土壤的碳氮循环过程及影响因素提供科学依据。
人类的情绪识别技术是目前人机交互,计算机视觉与模式识别领域一个重要的研究领域。在该领域已经有较多出色研究。现有研究多数是基于单一视角进行的,例如基于生理信号的情绪
葡萄产业作为新型农业经济的支柱,在农业产业结构调整中发挥着重要的作用,因为其在农业经济中所占的比重不断增加,因此对农民增收的相关作用也愈发明显。芷江侗族自治县是一个高山葡萄生产大县,葡萄种植收入占全县农业收入14%以上,且目前芷江正处葡萄产业转型升级的关键阶段。本文研究芷江侗族自治县葡萄产业发展对农民收入的影响,对于指导芷江侗族自治县制定更加科学有效的葡萄产业发展政策,增加农民收入,实现地区脱贫具