基于深度学习的病历命名实体识别研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:xxm181512619
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别主要是指从自由文本中将时间、地点、人物、国家、组织和事件等有价值的特殊实体名词提取出来,是自然语言处理中的一项基础任务。电子病历是指记录病人在医院进行治疗活动时产生的一系列具有规则的专业性文本。近些年来的电子病历命名实体识别研究经历了词典规则阶段、机器学习阶段和深度学习阶段,实体提取的准确度逐渐提升,但由于数据集稀少、病历数据敏感的原因,相对于其它自由文本的研究还是较少。目前病历命名实体识别研究能真正被用于实际项目的成果比较少,以往的研究集中在如何提升常见实体的识别精度,忽略了实际生产中要求实体种类多、实体精准度高要求高的需求。为了解决这一问题,本文做了如下工作。(1)针对主流病历命名实体识别任务缺少数据集的问题,合作标注了一个新的电子病历数据集,用于训练和测试。数据隐藏了相关的患者信息,由某大型三甲医院提供。(2)为提升病历命名实体识别精度,提出了一个命名实体识别的改进模型Ro BERTa-Bi LSTM-CRF。针对该模型使用两个数据集进行验证,其结果超过传统的Word2Vec-Bi LSTM-CRF模型,也超过了BERT-Bi LSTM-CRF模型。(3)为将命名实体识别研究的成果真正的用于医学科研生产环境,利用Ro BERTa-Bi LSTM-CRF模型深度挖掘医学文本提取实体词,设计开发出一套命名实体识别实用工具,该工具能够精准地从病历中抽取实体。
其他文献
学位
学位
学位
传统商业集镇是伴随传统社会商品经济发展孕育出的一类聚落形态,起着沟通区域内经济联系的作用。明清时期山西跨区域贸易与手工业的发展促进了大批集镇的兴起与繁荣,作为华北地区铁货集散中心的荫城古镇是其中一个典型代表,至今保存仍较完整,具有很高的研究价值。本文以长治市荫城古镇为研究对象,旨在从商业这一促进聚落发展的视角下,探讨其在经济活动影响下的聚落空间结构演变及商业建筑发展情况。基于史料分析与田野调查,本
随着居民对医药消费的需求升级以及我国医疗保障水平的不断提高,我国医药物流的发展空间和市场需求进一步扩大。当前新冠病毒带来的威胁尚未消散,加上我国老年人口数逐年增多,因此新冠疫苗以及治疗老年慢性病所需的胰岛素等冷链药品的需求量不断增加,给医药冷链物流提出了新挑战。受制于冷链药品受温度影响大、对安全性要求高、易变质等特点,医药冷链物流运营成本居高不下,仓储与配送作为物流系统中成本占比最大的两项物流活动
学位
学位
在我国交通领域,铁路运输一直占有重要地位。随着高铁建设的快速发展,八横八纵高速铁路路网的进一步完善,促进了铁路客运迅速增长。对铁路未来客运量的预测有助于对铁路进行合理的运营规划,从而促进铁路交通的健康稳定发展。目前铁路客运预测算法主要采用传统的统计学预测方法,对深度学习领域研究较少。对深度学习算法的研究也主要通过挖掘数据历史时间规律,而忽略了各省份空间上的关联关系。同时,铁路客运与经济等数据特征关
学位
当前正处于大数据火热的时代,如何有效利用大数据是各个企业、高校以及政府部门等关注研究的问题。云计算虽然实现了多个客户端将数据集中上传至云端进行联合训练,但是随着隐私安全问题的披露和人们对隐私安全问题的重视,云计算技术在当下已经不太适用了。为解决隐私保护问题,谷歌提出了具有安全性能保障的联邦学习技术,各个客户端可以在数据保留在本地的前提下进行联合训练。这种技术不仅解决了不同企业或不同设备间存在的数据