论文部分内容阅读
随着社会的不断发展,医疗健康产业也越来越受到关注。然而,医疗健康产业面临医疗支出升高、医疗人员不足等重大挑战。人工智能技术的不断发展为解决这些挑战提供了思路。构建中文医疗知识图谱对于开发医疗健康自动问答等医疗系统、推动医疗健康行业的发展具有重要作用。本文提出了基于多资源构建中文医疗知识图谱的整体技术方案,重点围绕基于自然语言处理相关技术从无结构化数据中提取医疗知识用于知识图谱的构建和更新。在文档级医疗实体识别任务中,针对文档级样本长度过长的问题,提出了多级别的句子划分机制,将文档级别样本转为句子级别样本。本文设计了融合知识的序列标注模型,一方面探索了多种方法从医疗领域词典提取领域知识,并且引入预训练语言模型BERT作为通用知识,然后将领域知识和通用知识以向量拼接的方式融入到模型中;另一方面,引入了CNN来提取字的局部上下文信息。实验结果表明,CNN能够提高模型的上下文建模能力,将知识融合到模型中能够有效提高中文医疗实体识别的效果。对于医疗实体对齐任务,本文提出了融合传统特征的深度学习模型。该模型主要分为传统特征提取器和深度匹配网络两个部分。一方面,基于文本相似度、词袋模型,TFIDF等方法设计传统特征提取器;另一方面,探索了三种深度匹配网络,包括基于Bi LSTM的孪生网络、基于Attention机制的匹配聚合网络以及基于BERT的匹配模型。实验结果表明,深度匹配网络越简单,融入传统特征后提升的百分点越大。融入传统特征的BERT匹配模型能够取得最优结果。在文档级医疗实体关系抽取任务中,针对文档级中文医疗文本中的实体关系跨句问题,提出了一种基于实体最大间隔过滤的句子抽取方法。该方法在减少跨句子实体对丢失的前提下,将文档级别样本转为句子级别样本。为了使得句子级别样本适用于关系抽取深度学习模型的训练,提出了一系列句子级别样本处理方法。本文探索了一种新型的句子级别关系抽取模型,一方面在词表示层引入了CNN提取局部上下文来增强词的表示,另一方面在编码层采用两层残差形式连接的Bi LSTM层。本文的方法在中文糖尿病标注数据集上取得了最好效果。此外,基于上述方法,本文开发了基于多资源的知识图谱系统,展示了中文医疗知识图谱的构建、更新与应用三部分。