基于主动学习的中文电子病历命名实体识别研究

来源 :中国数字医学 | 被引量 : 0次 | 上传用户:intaaag
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:开展基于主动学习的中文电子病历命名实体识别研究,旨在优化机器学习模型,并降低标注成本。方法:分析比较信息熵、语料长度以及随机查询3种不同算法,采用CCKS 2018 CNER评测语料,识别病历文本中的解剖部位、手术、药物、独立症状、症状描述5类实体。结果:在字数成本节约方面,基于熵的方法相比基于长度的方法节省了41%的字数;在语料成本节约方面,基于熵的算法相比随机抽样节省了46%的语料。结论:基于信息熵的主动学习方法通过选择待选标注集中最不确定的语料进行标注,可显著减少对标注语料的依赖,降低人工标注
其他文献
信息系统开发中的风险管理是系统开发管理的重要内容。由于高新技术的出现和更迭越来越快,产品的生命周期日益缩短,如果缺乏有效的系统开发风险管理,将导致很多信息系统开发项目
目的探讨实施人性化护理在门诊导医分诊中的效果。方法将2018年6月至2018年12月到本院门诊接受导诊服务的90例患者设为对照组,采用常规就诊流程干预;另将2019年1月至2019年7
从本质上来看,企业资源计划(ERP)、客户关系管理(cRM)都是先进管理理念与管理方法的高度浓缩,所以.研究ERP和CRM的整合价值链具有一定的实践意义。
2015年12月23日,青海果洛藏族自治州班玛县果芒村和玉树藏族自治州曲麻莱县长江村合闸通电,全国最后9614户3.98万无电人口用电问题得到解决。至此,“全民用电”记录到了中国
企业管理信息化是我国的重点研究和应用领域,可以借鉴大规模定制思想来改进管理信息化在企业的应用,提高应用的成功率和降低成本,以提高我国中小企业的竞争实力.
随着社会经济的发展,国内建筑行业的兴起,使建筑行业市场竞争日益激烈,建筑工程是建筑企业的立业之本,其管理方式直接关系建筑工程项目的成功与否,对建筑企业的发展起着制约
文学类文本阅读题被认为是考生很难得高分的题型,尤其是其中的主观题,考生普遍存在答不清或答不全的问题。根据考查内容的不同层次,要想突破文学类文本阅读考查这个难关,可以
科学的风险管理是保证信息化项目实施和应用成功的先决条件。本文提出了信息化项目的分阶段风险管理模型,并给出了各阶段的基本风险。
测定了桉叶油素+三氯甲烷和桉叶油素+四氯化碳的固液平衡相图,发现桉叶油素和三氯甲烷能形成氢键的稳定固体化合物C10H18O.HCCl3,桉叶油素和四氯化碳是简单的低共熔体系。
土壤的不可流动性等特性使得土壤污染的治理难度很大.原位生物恢复技术应用于治理土壤污染,为这一难题的解决提供了可能的途径.原位生物恢复技术通过改善土著微生物的生态条件而