论文部分内容阅读
医学知识图谱构建是医学人工智能研究的重要问题,是临床诊疗决策支持系统研发的重要支撑,其中表型实体及其关系是医学知识图谱的重要组成部分。然而由于医学术语库的动态变化和医学文本的快速累积,医学知识图谱中表型实体及其关系的维护和更新耗时耗力。因此,自动预测医学术语库间的表型概念同义关系,并建立医学文本中表型术语提及与规范化概念的映射关系是医学知识图谱构建的基础性研究工作。针对以上问题,本文的主要研究工作如下:首先,本文针对不同术语库的表型同义关系分析问题,构建了基于排序学习的分析方法。该方法将表型同义关系预测问题转化为对候选表型术语排序的问题,利用PubMed文献及相关信息,生成表型术语网络嵌入表示。然后通过相似度计算和排序学习的排序方法预测不同表型术语的同义关系。其次,研制了基于分类学习的术语同义关系分析方法。该方法将表型同义关系预测问题转化为对表型关系分类的问题,基于表型术语的网络嵌入表示构建表型术语关系的特征向量,分别使用支持向量机、逻辑回归、多层感知机、朴素高斯贝叶斯和随机森林等分类模型进行表型术语关系分类,然后基于融合分类模型对表型关系分类,进而预测表型之间的同义关系。本文在表型术语同义关系数据集上分别进行了基于排序学习和基于分类学习方法的同义关系预测实验。结果表明,两种方法在表型同义关系分析问题上均有较好的表现,其中基于分类的方法F1最高可达0.942。最后,针对表型概念规范化问题,本文将该问题分解为表型命名实体识别和表型实体链接两个子任务。首先,分别利用卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)学习字符向量和词向量,并结合条件随机场(CRF)构建BiLSTM-CNN-CRF模型,实现表型命名实体识别。然后基于CNN排序模型实现表型实体链接。并在National Center for Biotechnology Information(NCBI)疾病语料库和BioCreative V Chemical Disease Relation(BC5CDR)疾病语料库上进行对比实验,验证了方法的有效性。