论文部分内容阅读
在大数据时代,随着数据的高速增长,如何合理存储以及利用这些数据成为了人们亟待处理的问题。目前,医疗领域里的病历数据仍然采用的是传统模式的简单存放,虽然从纸质病历演变成了电子病历,但数据仍然繁琐复杂,未能得到有效利用。自2012年,谷歌提出了用以提升搜索引擎的搜索效率的知识图谱概念之后,其相关技术得到了快速发展。本课题旨在探索构建知识图谱的垂直领域中的应用系统,分析现有应用需求,完善知识图谱系统的功能,将现有知识图谱应用技术融入到知识图谱系统中,其中,通过分析国内外现状,发现构建医疗领域的知识图谱成为了人们迫切的需求,然而医学中的专业知识阻碍了研究进展,再者,国内也没有开源的具有标注的中文医疗数据。因此,在中文的医疗知识图谱中的研究还存在着严重的不足。在本课题的构建知识图谱系统的过程中,数据的获取和知识的抽取成为了第一步要解决的问题,当提取到知识三元组之后,对知识图谱进行表示学习,并且应用到系统中,实现知识的链接预测任务,再加入知识问答模块,构成了一个完整的知识图谱系统。本课题的主要工作:搜集了相关数据集,将这些数据集中的部分数据进行了筛选以及抽取,构建了一个新的数据集,并且进行了人工标注;对比了现阶段在知识抽取任务中表现良好的模型,通过调整参数以及实验对比,挑选出一个适用于本课题中电子病历数据集的知识抽取模型;同时,对比了现阶段常用在知识的表示学习中的模型,通过优化模型输入改进了这些模型,经实验对比,挑选出表现较为良好的表示学习模型;通过查阅资料以及分析其他论文,对比了不同的知识图谱存储方案,选择了一个最适合本系统的存储方式用以存放本系统中的知识图谱,既可以实现加快搜索,又能提供可视化展示;根据研究内容,加入了各种知识图谱的应用模块,包括知识的链接预测模块,知识的可视化展示模块,以及知识问答模块,搭建了一个较为完整的知识图谱应用系统。