论文部分内容阅读
随着国内医疗信息化产业的发展以及医疗数据标准体系的规范化,临床电子病历数据的研究价值也随之提高。面向临床电子病历数据的挖掘能够进一步推动智能医疗产业的发展。信息抽取技术是对电子病历文本进行知识抽取的重要手段。在临床电子病历领域,信息抽取技术的研究对个性化医疗服务、临床决策支持和随访管理等工作的开展具有重要的意义。信息抽取技术能够有效地从电子病历文本中获取医疗知识。在本文中,信息抽取技术主要是指命名实体识别技术和实体关系抽取技术。实体识别技术旨在识别出电子病历文本中多种类型的医疗实体,实体关系抽取技术旨在抽取出电子病历文本中医疗实体之间的关系。相比于其它文本,电子病历存在边界模糊、标注数据少、书写不规范等问题,以上问题加大了命名实体识别和实体关系抽取的难度,为有效地提取电子病历中的医疗实体以及实体间的关系,本文做了如下工作:电子病历中的实体识别:本文提出一种基于预训练模型EMR-BERT的电子病历实体识别的方法,利用BERT预训练模型为EMR-BERT提供基本参数,使用相关的电子病历的语料库为EMR-BERT提供预训练数据,再结合Bi-LSTM-CRF模型进行实体的抽取。最终结果与传统的模型进行对比,达到64.97%的召回率和62.14%的F值,相比传统方法在召回率和F值上分别提高了4.65%和2.16%,实验结果表明该模型能够有效地解决电子病历的实体识别的问题。电子病历中的实体关系抽取:对于关系抽取任务,选取该任务的benchmark数据集i2b2 2010电子病历数据集进行实验,本文提出一种基于注意力机制的BiGRU-CNN模型,对八种医疗实体关系的抽取结果的微平均指标进行评价,结果如下:微平均精确率、微平均召回率和微平均F1值分别为68.9%、64.6%、66.7%,实验结果表明该模型能够有效地解决电子病历的实体关系抽取问题。