基于文献挖掘的生物实体关系提取研究及应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:programmelove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生命机体中生物实体(如化合物、蛋白质等)之间时刻发生各种相互作用,研究生物实体的作用关系对理解生命机制至关重要。随着生物医学文献快速增长,可以利用文献挖掘的方法高效地提取出生物实体关系,进而建立结构化的生物数据库,这对于生物医学基础研究和药物研发等领域具有广泛的应用价值。据我们所知,以往基于机器学习的系统提取生物实体关系需要耗费精力设计特征,而且较难刻画词语之间的依赖信息;基于深度学习的系统大多忽略了生物实体关系具有层次的特点,未建立关系之间的联系。而且这些系统在特定数据集上训练,迁移到其他数据集时表现不佳,导致难以提取多种生物实体关系。另外,大多生物实体关系数据库依靠手工建立,该方法非常耗费资源且难以跟上出版物的速度。为此本文设计一种普适性强的且能提取不同层次生物实体关系的深度学习模型,并利用模型挖掘海量文献中的生物实体关系,建立结构化的数据库供研究者使用。本文主要工作和贡献如下:1.生物实体层次化关系提取方法设计本文提出基于多通道卷积神经网络模型(MCCNN)用于提取多种生物实体关系。此模型利用卷积操作将句子划分成多个短语并学习其语义,然后从短语中捕获到表达关系的底层关系词,最后自底向上地将底层关系归类到高层关系。本文未通过人工构造特征,而是通过语言模型(BERT)从生物语料库中学习领域词汇分布规律,产生更准确的词向量,并结合注意力机制和残差层充分学习句子的语义,最终利用多通道卷积层实现关系预测。另外为了增强模型在多种数据集上的鲁棒性,本文设计了 Ranking损失函数,利用样本分布信息自适应地调节参数更新。通过在药物-药物、化合物-蛋白质关系数据集上测试,结果表明本文方法比现有方法具有更好的效果,说明本文方法对多种生物实体关系提取均有效。2.生物实体关系数据库的建立及应用本文利用训练的模型从海量公开的文献摘要中挖掘生物实体关系,并建立了实体关系数据库。本文首先从PubMed检索系统中下载大量生物医学文献摘要,然后提取出其中的实体关系数据,为了保证数据的质量,我们设计了提取结果的检验指标和评分策略,并只在数据库中保留满足指标的数据,最终在我们数据库中存储了约30万条生物实体关系数据。最后我们搭建了基于WEB的检索系统,在本系统中离散的生物实体组成了一个大型的生物关系网络,使用者可以查询任意实体间直接或间接的关系类型,也可以对结果进行排序和可视化分析。
其他文献
集成学习是一类著名的机器学习方法,通过构建并结合多个学习器来完成学习任务,常可获得比单一学习器显著优越的泛化性能,在诸多实际应用中取得了成功。学习器之间的多样性是
随着社会经济的发展,高精度的电力电子设备被广泛使用,用户对电能质量的要求越来越高。然而,非线性、冲击性负荷的使用,以及大量风能、太阳能等新能源的并网,使得电网污染严
扭送是公民同犯罪作斗争的权利,在打击犯罪层面上是国家公权力的一种有力补充。扭送具有打击犯罪、保障公民权利及维护社会稳定的积极作用。扭送行为的定义、性质和构成要件
社区冲突因其背后折射出的国家与社会关系变化等原因,吸引了越来越多学者的关注,而目前的研究多将原因归结于国家制度结构层面,缺乏对资本力量所发挥作用的考察。基于一种找
绿色制冷已成为解决能源与环境问题的重要途径,太阳能吸附制冷是具有潜力的绿色制冷方式之一。目前,太阳能吸附制冷技术存在热源温度不足,传热传质性能较差等方面的问题。本
由于我国高速公路和城市立体交通的快速发展,为更好适应路线要求,斜交桥得到了大量应用。历次震害表明,由于复杂的荷载传递机制,斜交桥比直线桥梁更容易在地震中受到破坏。桥
近年来,我国的激光科学技术正处于迅猛发展阶段。在社会全面发展、产业经济提升、国防安全应用和经济结构转型以及国家竞争性发展等各方面,激光科技的全面创新和产业应用的转型发展都有着十分重要的战略意义。激光器是激光科学与技术的核心,然而在激光芯片的生产过程中,不可避免地会出现损伤缺陷。传统检测方法耗时、严重依赖模型、需要丰富的操作经验,而且无法实现缺陷定位。本文中我们主要研究卷积神经网络在激光芯片缺陷检测
在全球化的今天,国家形象的重要性日益凸显,而在各国的外交策略中,传媒与政府相互配合塑造国家形象已经成为普遍手段。相较于中国本土媒体,主要面向国外受众的海外华文媒体在
目的运用网络药理学方法预测鸡血藤治疗糖尿病血管病变的相关靶点与信号通路。方法从不同开源数据库及相关文献筛选鸡血藤与糖尿病血管病变的靶点,对整理的鸡血藤与糖尿病血
纯电动汽车由于零排放,无污染的优点已经得到越来越多国家的认可,成为目前国际节能环保发展的主攻方向。但是电池作为电动汽车能量源,还没有达到与发动机媲美的地步,虽然目前