中文电子病历医学实体识别算法研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:bazhahai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子病历是患者完整病程的数字化记录,对帮助医生分析病案和医疗决策具有重要意义。结构化电子病历由于选择复杂、限制医生思维以及病例高度重复等问题,慢慢被医生使用自然语言进行书写的非结构化和后结构化电子病历所取代。结构化的电子病历是医疗大数据分析的基础,因此,将自然语言书写的电子病历转化为具有一定规则的结构化数据是现在医学信息学研究的重要方向。深度学习方法的出现和使用也使针对电子病历的自然语言处理成为研究热点。本文研究基于深度学习的命名实体识别技术,可完成对医学文本中的实体名词进行识别与提取,从而达到电子病历的后结构化目的。在命名实体识别任务中,词嵌入作为最重要的预训练方法,将上下文中的词语信息转化为数学空间中的向量。不同于英文从词语或句子级别的角度进行研究,中文词嵌入的研究重点在于挖掘中文词语与字符的内在偏旁部首与笔画信息。故本文提出一种融合词信息与子词信息作为词嵌入的模型,使用字符与笔画组合来构成子词信息部分,对比现有词嵌入方法结合更多词语的内在信息。通过外部评估的方式,在四种不同命名实体识别模型中进行测试,结果表明,本文提出的融合模型比仅使用单一词语作为词嵌入,在模型的F1值评估指标上平均提高1%。由于中文电子病历命名实体识别的研究需要大量标注数据,而聘请医生和具有相应知识背景的专家来进行数据标注,在人力物力上耗费巨大且投入产出比极低。所以本文提出一种基于众包标注的医学实体识别模型,将众包标注的电子病历作为输入进行模型训练,利用对抗学习的思想降低众包之间的差异并提升模型的泛化能力,通过与其他对众包语料进行投票后的命名实体识别模型进行对比实验,F1值有2%-3%左右的提升,并且在准确率和召回率上也取得更好的效果。本文基于DevOps的理念设计并开发电子病历标注系统,实现了Web端的电子病历的标注与医学术语词典等应用,并在服务器端对应用服务、数据库及服务器等节点进行监控,运用Docker容器技术实现从代码提交、测试到服务部署的CI/CD流水线。最后通过API并发测试,通过监控模块对硬件及节点状态进行实时监控,并在负载达到预设压力时进行报警通知,从而验证了系统的稳定性。
其他文献
我国配电网广泛采用小电流接地运行方式,该方式能提高电网供电的可靠性。单相接地故障时,接地相电流要比负荷电流小很多,三相间线电压仍能保持对称,系统可以带故障运行一段时
《社会语言学导论》(Sociolinguistics:An introduction,Harmonsworth,Middlesex,Penguin Books,1976),著者Trudgill是当代英国语言学家,1943年生于诺里奇,1971年获爱丁堡大
高校办公室公文写作是高校办公室工作中的重要内容,但目前高校办公室在公文写作方面存在较多问题,严重影响了高校的办公质量。随着我国教育事业的不断发展,对高校办公室公文写作
极限概念及思想方法是学习微积分的重点和难点,本文从发展史、描述性定义、语言定义及理解、思想方法几方面给出了学习指导.
利用MODIS分裂窗算法反演得到2003-2013年京津冀城市群地表温度,并以此分析城市群热岛效应、热岛强度等。本文首先计算了城市群2003-2013年地表温度平均值,其次利用半径法确
虚拟现实技术是当代仿真技术的重要方向,近几年发展迅猛。在不同的应用场景下,实现技术随之改变。基于全景图的虚拟现实技术被广泛应用于街景地图、智能家居、室内展示、虚拟
为了降低夜间空调能耗,基于帕尔帖效应设计了一种床体局部空调,简称空调床。空调床由床头制冷装置和床尾供暖装置构成,在满足床内舒适温度需求的同时,可以实现“头凉脚暖”的局部
目的通过观察消炎生肌膏联合二氧化碳点阵激光治疗凹陷性痤疮瘢痕的ECCA权重评分、有效率、误工期及不良反应发生率,探究消炎生肌膏的临床作用机制,为凹陷性痤疮瘢痕患者的治疗提供新的思路。方法根据纳入排除标准,将2017年5月-2018年5月就诊于我院整形美容中心门诊的Fitzpatrick皮肤类型为Ⅲ-Ⅳ型的凹陷性痤疮瘢痕患者68例,按照随机对照表法,将68例患者随机分成对照组和观察组,对照组采用重组
对民族民间文化进行知识产权保护的观点虽然早已提出,但对似乎已经进入公共领域的传统知识再回过头来进行私权保护,其理由并不十分充足。国民族民间文化具有较为复杂的法律特征
<正>背景:《数学课程标准》提出:"要让学生参与特定的数学活动,在具体情境中初步认识对象的特征,获得一些体验。"所谓体验,就是个体主动亲历或虚拟地亲历某件事并获得相应的