论文部分内容阅读
研究背景:脾胃病中医临床研究成果丰硕,积累了庞大的文献资源,蕴藏着可观的知识体量,但知识体系碎片化特点十分突出。知识图谱是在大数据的背景下产生的一种新颖的海量知识管理技术,其以语义网络为核心,建立概念之间的语义关系,适合应用于中医药知识存储、管理与使用。研究目的:本研究旨在以中医脾胃病临床研究的文献题录为数据来源,以疾病为核心,运用自然语言处理、深度学习算法模型等先进技术,探索开发适用于中医临床语义的知识表示方法和中医脾胃病知识图谱自动构建的方法,并结合中医医案、中医药教材知识内容,构建集“病一证一症—治—法—方—药—技”为一体的能够较为完整反映脾胃病临床诊疗特点的大型知识图谱,实现中医脾胃病知识资源的有效整合,优化中医临床知识图谱构建路径。研究内容:(1)分析中医药脾胃病数据特征并设计知识框架;(2)搜集文献构建脾胃病专题文献库,根据需求形成标注要求,采用半自动化标注方法,根据标注要求进行语料信息标注,形成中医脾胃病语料库;(3)探索自然语言处理技术在中医脾胃病知识图谱构建中的应用,并基于算法模型进行知识图谱实体与关系的自动抽取;(4)结合中医药教材、中医医案中脾胃病知识,构建多来源的脾胃病知识图谱;(5)基于实体与关系的抽取模型,形成中医脾胃病知识图谱自动构建方法与路径;(6)在框架和数据两个层面,将多来源脾胃病知识图谱进行融合,形成较大规模的中医脾胃病知识图谱。研究结果:(1)构建了包含核心知识内容和良好知识表达的知识图谱框架。本文通过对中医脾胃病的知识特征进行分析,设计了包含西医诊断、中医诊断、中医证候、临床表现、治则治法、方剂或中成药、中药、西药、中医适宜技术、其他治疗共10种实体类型与现象表达、被治疗、由组成、相关疾病和指导治疗共5种关系类型,形成脾胃病知识图谱的底层逻辑。(2)构建了高质量的中医脾胃病标注语料库。期刊文献汇聚了科研工作的成果,题录包含文献中最凝练的知识内容,以期刊文献的题录作为知识来源,共标注题录数据1653761字,实体共计10892个,关系三元组5446条,经过专业人员审核保证标注语料的质量。(3)应用深度学习算法模型进行中医药领域知识的自动抽取,探索中医药知识图谱自动构建的关键技术。基于ALBERT-BILSTM-CRF完成中医脾胃病实体抽取任务,各类实体加权平均F1值为0.8129,4类实体F1值在85%以上;基于BERT-BIGRU-ATTENTION-FC实现中医脾胃病关系抽取,F1值为0.9930。(4)构建了以“病—证—症—治—法—方—药—技”为核心的能够反应脾胃病临床诊疗过程的中医脾胃病知识图谱,实现多路径知识图谱的知识融合。以现行教材、名医医案和期刊文献的题录作为数据来源,通过基于规则、基于深度学习等方法进行知识抽取,通过知识框架融合与数据层融合将多源构建的知识图谱融合起来,形成具有一定规模的中医脾胃病知识图谱。选择Neo4j进行知识图谱的存储,构建了包含10274个节点,22005条边的中医脾胃病知识图谱。研究结论:(1)中医脾胃病知识图谱是以中医药概念体系与中医脾胃病领域知识为核心、对疾病诊疗过程中蕴含的海量知识进行组织、管理与应用的数据库,其能够形成逻辑清晰、关联充分的文献资源组织体系,实现多源资源汇交、文献信息检索以及知识可视化分析。(2)运用自然语言处理、深度学习等方面的先进技术成果,优化知识图谱的构建路径,实现面向中医脾胃病领域知识的知识图谱自动构建,是提高知识图谱构建效率的有效方法,可推广至中医药其他子领域知识图谱的构建中,实现中医药大型知识图谱的构建,形成共建共享的中医药知识图谱体系。