基于外部知识的药物间关系抽取研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zjlzjl943
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
药物间相互作用(Drug-drug Interactions,DDIs)是指患者服用多种药物,药物的作用可能被其他药物增强或减弱,或发生严重的药物不良反应(Adverse drug reactions,ADRs),是生物医学领域一个重要的研究方向。近年来,基于深度学习的药物关系抽取模型取代了基于特征的机器学习方法,成为生物医学关系抽取的主流模型。相较于支持向量机(Support vector machine,SVM)等传统的机器学习方法,深度神经网络不需要过多的人工特征,并且有着较好的泛化性能。生物医学实体往往有着十分复杂的名字,神经网络不能够很好的理解其语义。针对此问题,本文提出一种将药物的描述文档作为外部知识,结合深度神经网络进行药物间关系抽取的模型。该方法以预训练语言模型BioBERT作为输入层,并通过改进BioBERT的输出,增强了BioBERT的泛化性能,再将BioBERT词向量送入双向门控递归单元层(Bidirectional gated recurrent unit,BiGRU)来获得句子的向量表示。对于外部知识处理部分,该方法对药物描述文档进行编码,得到文档的向量表示作为药物描述信息。通过利用包括药物描述信息在内的三种药物实体信息构造了三种实体注意力,最后通过softmax分类器得到最终的分类结果。该模型在DDIExtraction 2013语料上达到了80.9%的F值。知识图谱是另一种可利用的外部知识,由于它是一种结构化数据,因而不能直接利用到神经网络之中。另外,用于自然语言处理的神经网络模型的输出为包含语义信息的向量,而知识图谱的结构化数据大多不包含语义信息,因此如何有效地结合这两种不同含义的信息以最大化知识图谱的作用也是研究难点之一。针对此问题,本文提出一种融合外部知识的神经网络模型来对药物知识图谱进行有效地利用。该方法首先通过CompeEx模型将药物知识图谱中的药物实体转换为向量,并用二分类神经网络模型对药物知识向量进行预训练,使其更加贴合DDIs抽取任务,再将训练得到的药物知识向量和抽取DDIs的神经网络的输出层的输出进行拼接,最后通过softmax分类器得到分类结果。该模型在DDIExtraction 2013语料上达到了81.2%的F值。综上,本文提出了两种药物相关的外部知识构建方法,并针对外部知识的特点设计了两种利用外部知识的神经网络模型,此外还提出一种改进预训练语言模型的方法,提高了预训练语言模型的泛化性能。在DDIExtraction 2013数据集上的实验证明了所提出模型的有效性。
其他文献
柴油机燃烧过程是柴油机动力产生的决定性过程。柴油机燃烧过程含有丰富的柴油机状态信息,对柴油机燃烧过程进行检测,可检测出柴油机燃烧过程中可能出现的燃烧不良及其诱发的故障。常见的柴油机燃烧过程检测方法有三种:瞬时转速法、缸内圧力曲线法和振动信号法。其中,由于传感器限制,瞬时转速法难以对于高转速柴油机进行检测;而缸内圧力曲线法压力传感器昂贵且难以实现非侵入式检测,故无法实现大规模的工业应用;振动是柴油机
近年来,随着科技的不断发展与进步,铟锡合金(In-Sn)作为一种制备透明导电氧化铟锡膜(TCO)的重要材料,已被应用于航空、航天、电子等技术领域。铟锡合金薄膜的制备与其它普通合金薄膜的制备大同小异,但目前有关铟锡合金薄膜择优取向生长的制备方法和其性质研究的报道还没有。因此,对铟锡合金薄膜的制备、生长机理以及光电性能的研究,在未来半导体等各方面应用市场具有重要意义。另外,铟锡合金薄膜除了上述特性外,
近年来随着科学技术的不断进步以及人们生产生活方式的转变,室内移动机器人已经进入发展快车道,开始从传统工业应用领域走向多样化商业服务,从小规模试用阶段踏入大批量生产
产能过剩背景下,我国东部沿海地区制造业产品的国内外有效需求呈现下滑之势,经济效益下行压力增大,由此引发的劳资矛盾增多,劳资冲突日益直接化和尖锐化,劳资纠纷引发的群体
我国全民医保的基本实现同时也带来了许多问题,如流动人口的基本医疗保险异地就医结算。人口跨区域流动规模随着我国城市、城镇化持续建设不断加快呈逐年增长趋势。人口流动
目的:探讨Beck指数及椎体高度恢复率与随访椎体高度丢失率的相关性方法:回顾2015.1到2019.1月因为骨质疏松压缩性骨折(OVCF))在我院行PKP术(L1))并且获得随访的病例107例。收集病例资料,其中包括年龄、性别、术椎术后前缘高度恢复率,Beck指数,及术后第3个月、6个月术椎前缘高度丢失率。对上述资料采用多元线性回归分析探究术椎术后前缘高度恢复率及Beck指数对术椎第三、第六个月前
甲醛是一种无色具有刺激性气味的有毒气体,长期接触对人体伤害很大,生活中主要存在于家装材料中。开发低检出限快速响应的甲醛传感器具有重要意义。氧化锡(SnO_2)是一种n型宽禁带半导体,禁带宽度为3.5-4.0 eV。是一种重要的气敏材料,被广泛用于各种有害及易燃气体的检测和感知。然而,SnO_2单体存在灵敏度低、选择性差等缺点。研发高灵敏度、优异选择性的复合甲醛气敏材料具有重要意义。本课题以SnO_
癌症已经成为威胁人类生命健康的主要疾病之一,高效的基因选择方法可以有效识别和分析基因表达谱中的致病基因,为癌症的预防和治疗提供重要的参考。基因表达谱具有高维度、小
随着工业机器人在各行业的普及应用,机器人编程的质量和效率对提高工作效率越来越重要。在打磨抛光领域,传统的人工示教效率低、难以保证打磨质量,传统的离线编程要求工件一