论文部分内容阅读
阿尔兹海默症是一种常见的老年疾病。据报道在2015年间阿尔兹海默症导致了190万人的死亡,并且该疾病的治疗费用较高。到目前为止,还未有有效治疗或控制该疾病的相关报道。为了找到有效的治疗方法,大量生物医学实验在不断的进行中,大量研究论文不断涌现。然而,2018年1月新英格兰杂志宣布,最有可能的特效药临床试验失败。因此,有必要对过去该疾病的研究思路重新梳理、分析并发现新研究方向。本文针对PubMed数据库中,从2000年到2019年共132,749篇与阿尔兹海默症相关的摘要数据,采用机器学习方法进行知识抽取,构建阿尔兹海默症的知识图谱并进行知识发现。知识图谱的构建模型如下:首先从PubMed数据库下载阿尔兹海默症文献数据,并提取摘要;然后基于主题模型、词向量模型、聚类模型以及命名实体识别的方法,抽取出实体、实体之间的关系以及实体属性等知识;最终利用图数据库将抽取的知识进行存储和展示。同时从时间维度出发,根据实体在时间维度上的变化实现相关知识发现。实验最终识别出16类,共计775个实体。通过实体在文献中的共现情况,定义了“治疗”、“引发”、“并发症”、“行为”、“诊断”和“研究区域”六种关系,共计646个。同时,我们从疾病、药物、症状及过程、研究区域和基因五个方面进行了实体趋势研究,进行相关知识发现。构建的阿尔兹海默症知识图谱,可以为相关研究人员的研究提供理论依据以及数据支持。