论文部分内容阅读
在生命机体中生物实体(如化合物、蛋白质等)之间时刻发生各种相互作用,研究生物实体的作用关系对理解生命机制至关重要。随着生物医学文献快速增长,可以利用文献挖掘的方法高效地提取出生物实体关系,进而建立结构化的生物数据库,这对于生物医学基础研究和药物研发等领域具有广泛的应用价值。据我们所知,以往基于机器学习的系统提取生物实体关系需要耗费精力设计特征,而且较难刻画词语之间的依赖信息;基于深度学习的系统大多忽略了生物实体关系具有层次的特点,未建立关系之间的联系。而且这些系统在特定数据集上训练,迁移到其他数据集时表现不佳,导致难以提取多种生物实体关系。另外,大多生物实体关系数据库依靠手工建立,该方法非常耗费资源且难以跟上出版物的速度。为此本文设计一种普适性强的且能提取不同层次生物实体关系的深度学习模型,并利用模型挖掘海量文献中的生物实体关系,建立结构化的数据库供研究者使用。本文主要工作和贡献如下:1.生物实体层次化关系提取方法设计本文提出基于多通道卷积神经网络模型(MCCNN)用于提取多种生物实体关系。此模型利用卷积操作将句子划分成多个短语并学习其语义,然后从短语中捕获到表达关系的底层关系词,最后自底向上地将底层关系归类到高层关系。本文未通过人工构造特征,而是通过语言模型(BERT)从生物语料库中学习领域词汇分布规律,产生更准确的词向量,并结合注意力机制和残差层充分学习句子的语义,最终利用多通道卷积层实现关系预测。另外为了增强模型在多种数据集上的鲁棒性,本文设计了 Ranking损失函数,利用样本分布信息自适应地调节参数更新。通过在药物-药物、化合物-蛋白质关系数据集上测试,结果表明本文方法比现有方法具有更好的效果,说明本文方法对多种生物实体关系提取均有效。2.生物实体关系数据库的建立及应用本文利用训练的模型从海量公开的文献摘要中挖掘生物实体关系,并建立了实体关系数据库。本文首先从PubMed检索系统中下载大量生物医学文献摘要,然后提取出其中的实体关系数据,为了保证数据的质量,我们设计了提取结果的检验指标和评分策略,并只在数据库中保留满足指标的数据,最终在我们数据库中存储了约30万条生物实体关系数据。最后我们搭建了基于WEB的检索系统,在本系统中离散的生物实体组成了一个大型的生物关系网络,使用者可以查询任意实体间直接或间接的关系类型,也可以对结果进行排序和可视化分析。