论文部分内容阅读
电子病历是患者完整病程的数字化记录,对帮助医生分析病案和医疗决策具有重要意义。结构化电子病历由于选择复杂、限制医生思维以及病例高度重复等问题,慢慢被医生使用自然语言进行书写的非结构化和后结构化电子病历所取代。结构化的电子病历是医疗大数据分析的基础,因此,将自然语言书写的电子病历转化为具有一定规则的结构化数据是现在医学信息学研究的重要方向。深度学习方法的出现和使用也使针对电子病历的自然语言处理成为研究热点。本文研究基于深度学习的命名实体识别技术,可完成对医学文本中的实体名词进行识别与提取,从而达到电子病历的后结构化目的。在命名实体识别任务中,词嵌入作为最重要的预训练方法,将上下文中的词语信息转化为数学空间中的向量。不同于英文从词语或句子级别的角度进行研究,中文词嵌入的研究重点在于挖掘中文词语与字符的内在偏旁部首与笔画信息。故本文提出一种融合词信息与子词信息作为词嵌入的模型,使用字符与笔画组合来构成子词信息部分,对比现有词嵌入方法结合更多词语的内在信息。通过外部评估的方式,在四种不同命名实体识别模型中进行测试,结果表明,本文提出的融合模型比仅使用单一词语作为词嵌入,在模型的F1值评估指标上平均提高1%。由于中文电子病历命名实体识别的研究需要大量标注数据,而聘请医生和具有相应知识背景的专家来进行数据标注,在人力物力上耗费巨大且投入产出比极低。所以本文提出一种基于众包标注的医学实体识别模型,将众包标注的电子病历作为输入进行模型训练,利用对抗学习的思想降低众包之间的差异并提升模型的泛化能力,通过与其他对众包语料进行投票后的命名实体识别模型进行对比实验,F1值有2%-3%左右的提升,并且在准确率和召回率上也取得更好的效果。本文基于DevOps的理念设计并开发电子病历标注系统,实现了Web端的电子病历的标注与医学术语词典等应用,并在服务器端对应用服务、数据库及服务器等节点进行监控,运用Docker容器技术实现从代码提交、测试到服务部署的CI/CD流水线。最后通过API并发测试,通过监控模块对硬件及节点状态进行实时监控,并在负载达到预设压力时进行报警通知,从而验证了系统的稳定性。