基于半监督学习的中文电子病历分词和名实体挖掘

被引量 : 0次 | 上传用户:new_spider
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子病历是由医务人员撰写的面向患者个体的描述医疗活动过程的数字化记录,是传统纸质病历的替代品。电子病历包含了关于病人个体健康信息的全面、详实、专业、即时、准确的描述,是一种非常宝贵的知识资源。通过分析和挖掘电子病历,可以从中获得大量与患者密切相关的医疗知识。这些知识可应用于构建临床决策支持系统和提供个性化健康信息服务。电子病历并非完全结构化的数据,其中自由文本形式的非结构化数据在电子病历中占有重要地位。因此,分词和名实体识别等自然语言处理技术将在电子病历知识挖掘中发挥重要作用。目前最有效的分词和名实体识别方法是基于词典或有监督机器学习的方法。但由于电子病历的专业性,人工构建专业词典或训练语料的难度极大。为了克服获取熟语料困难的问题,本文分别提出了基于半监督学习的中文电子病历分词和名实体挖掘方法。大量的未登录词是中文电子病历分词所面临的的最大挑战,它们通常是医疗专业术语及缩写。本文将电子病历分词分为两个步骤。首先,使用开放领域词典,根据最大似然原则对电子病历进行初步的切分。其中,词的出现概率由EM算法从大规模未标注语料中学习得出。然后,利用字串的边界熵、长度等信息,通过有序聚类算法对初步切分结果进行调整,以达到识别未登录词的目的。实验结果表明,该方法是可行的,具有较强的识别未登录词的能力,其效果优于基于边界熵的无监督分词。与开放领域文本相比,中文电子病历文本具有很多不同之处,主要体现在使用半结构化的方式组织各部分内容以及语言简洁且模式化较强这两个方面。针对这些特点,文本提出了分而治之的处理策略,即利用文本模式从病历的不同部分挖掘不同类型的实体。其中,文本模式由Bootstrapping算法利用少量已标注的实体从大规模未标注语料中学习得出。实验结果表明,该方法在挖掘疾病类实体时效果较好,但在挖掘治疗和药品时效果较差,仍需进一步改进。
其他文献
<正> 病例:范××,女,51岁。主因心下满闷伴头晕、目眩反复发作十二年于92年12月27日就诊。既往体健。患者缘于12年前因外受风寒服用安乃近后,发汗太过,继发心下满闷、头晕目
针对网络信息安全领域对数据加密和快速处理的需求,设计了一种基于FPGA和USB2.0芯片的数据加密盒,实现了高安全性的国产SM4对称密码算法。该设备在30个明文分组、10 000次循
目的:研究体重过高(BMI≥24)人群痰证与非痰证者生理生化指标之间差异。方法:采用证素辨证法,采集214例体重过高人员的四诊资料信息,进行证素辨证。其中108例痰证积分≥100归
高校内部审计是惩治和预防腐败体系中不可缺少的重要组成部分。通过对高校内部审计机构的独立性、审计内容、审计职能的发挥、审计结果的运用等方面进行分析研究,探讨如何发
近年来,计算机视觉在许多研究领域都已经取得了丰硕的成果。异常人群行为检测作为计算机视觉中最具挑战性的课题之一,在运输、公共安全等领域中起着重要作用,并引起了越来越多人
一个企业的持续发展,不仅靠科学的制度和管理,更要靠企业文化的竞争力。河南五建集团公司是一家有着64年历史的大型综合性企业集团,这家成立于1953年的老牌施工企业,在其半个
<正> 在西安,乃至陕西省的中小学音乐教育艺苑中有一株开放得十分绚丽的奇葩,那就是西安市实验小学。教育家苏霍姆林斯基说过:有什么样的校长,就有什么样的学校。实验小学在
像素图形早在20世纪就出现并被使用在电子产品中,它是电子计算机等产品最原始的图形表现形式。随着电子产品的普及,像素画、像素图形也开始被大量地被应用在电脑计算机、游戏
随着现代控制技术的发展,无人机已在军事、民用领域有了成功的应用。在对复杂环境和任务的研究过程中,无人机编队的概念应运而生。关于无人机编队的研究涉及诸多层面,一方面
针对当前"互联网+"与各行各业之间的深度融合,本文将以"互联网+"为研究背景,对互联网+市场营销模式创新进行深入研究。笔者主要从"互联网+"背景下市场营销模式创新的必要性入