基于多资源的中文医疗知识图谱构建方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yuan_kai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的不断发展,医疗健康产业也越来越受到关注。然而,医疗健康产业面临医疗支出升高、医疗人员不足等重大挑战。人工智能技术的不断发展为解决这些挑战提供了思路。构建中文医疗知识图谱对于开发医疗健康自动问答等医疗系统、推动医疗健康行业的发展具有重要作用。本文提出了基于多资源构建中文医疗知识图谱的整体技术方案,重点围绕基于自然语言处理相关技术从无结构化数据中提取医疗知识用于知识图谱的构建和更新。在文档级医疗实体识别任务中,针对文档级样本长度过长的问题,提出了多级别的句子划分机制,将文档级别样本转为句子级别样本。本文设计了融合知识的序列标注模型,一方面探索了多种方法从医疗领域词典提取领域知识,并且引入预训练语言模型BERT作为通用知识,然后将领域知识和通用知识以向量拼接的方式融入到模型中;另一方面,引入了CNN来提取字的局部上下文信息。实验结果表明,CNN能够提高模型的上下文建模能力,将知识融合到模型中能够有效提高中文医疗实体识别的效果。对于医疗实体对齐任务,本文提出了融合传统特征的深度学习模型。该模型主要分为传统特征提取器和深度匹配网络两个部分。一方面,基于文本相似度、词袋模型,TFIDF等方法设计传统特征提取器;另一方面,探索了三种深度匹配网络,包括基于Bi LSTM的孪生网络、基于Attention机制的匹配聚合网络以及基于BERT的匹配模型。实验结果表明,深度匹配网络越简单,融入传统特征后提升的百分点越大。融入传统特征的BERT匹配模型能够取得最优结果。在文档级医疗实体关系抽取任务中,针对文档级中文医疗文本中的实体关系跨句问题,提出了一种基于实体最大间隔过滤的句子抽取方法。该方法在减少跨句子实体对丢失的前提下,将文档级别样本转为句子级别样本。为了使得句子级别样本适用于关系抽取深度学习模型的训练,提出了一系列句子级别样本处理方法。本文探索了一种新型的句子级别关系抽取模型,一方面在词表示层引入了CNN提取局部上下文来增强词的表示,另一方面在编码层采用两层残差形式连接的Bi LSTM层。本文的方法在中文糖尿病标注数据集上取得了最好效果。此外,基于上述方法,本文开发了基于多资源的知识图谱系统,展示了中文医疗知识图谱的构建、更新与应用三部分。
其他文献
稀土镁合金由于质轻、比强度和比刚度高以及良好的机械加工性等特点在结构件等应用上有着良好的发展前景。第二相强化是提高镁合金强度最直接有效的方式,由此含有长周期有效
在动画发展的初期,动画创作者更多的是对动画表现技法的关注与研究。而随着动画专业的不断进步,动画的表现手法逐渐完善,在动画制作中,创作者也将更多的注意力放到动画表演上
目的:探讨对行胃肠道手术的患者进行优质护理的效果。方法:将2016年1月至2017年1月期间新沂市人民医院手术室收治的80例行胃肠道手术的患者作为研究对象,将这些患者按照随机数
近年来我校自动化系开展了一项名为“丰富自动化专业课堂类型,为个性化培养创造空间”的教学改革项目。通过这项教学改革,建设了多门个性化专业课程,包括两门上线国家精品资
随着医学数据量的增加,从疾病、药物、治疗、基因等医学实体中发现新知识,挖掘医学数据之间隐含的知识来辅助疾病诊断意义重大。知识图谱技术成为知识问答和领域知识发现的重