论文部分内容阅读
电子病历是由医务人员撰写的面向患者个体的描述医疗活动过程的数字化记录,是传统纸质病历的替代品。电子病历包含了关于病人个体健康信息的全面、详实、专业、即时、准确的描述,是一种非常宝贵的知识资源。通过分析和挖掘电子病历,可以从中获得大量与患者密切相关的医疗知识。这些知识可应用于构建临床决策支持系统和提供个性化健康信息服务。电子病历并非完全结构化的数据,其中自由文本形式的非结构化数据在电子病历中占有重要地位。因此,分词和名实体识别等自然语言处理技术将在电子病历知识挖掘中发挥重要作用。目前最有效的分词和名实体识别方法是基于词典或有监督机器学习的方法。但由于电子病历的专业性,人工构建专业词典或训练语料的难度极大。为了克服获取熟语料困难的问题,本文分别提出了基于半监督学习的中文电子病历分词和名实体挖掘方法。大量的未登录词是中文电子病历分词所面临的的最大挑战,它们通常是医疗专业术语及缩写。本文将电子病历分词分为两个步骤。首先,使用开放领域词典,根据最大似然原则对电子病历进行初步的切分。其中,词的出现概率由EM算法从大规模未标注语料中学习得出。然后,利用字串的边界熵、长度等信息,通过有序聚类算法对初步切分结果进行调整,以达到识别未登录词的目的。实验结果表明,该方法是可行的,具有较强的识别未登录词的能力,其效果优于基于边界熵的无监督分词。与开放领域文本相比,中文电子病历文本具有很多不同之处,主要体现在使用半结构化的方式组织各部分内容以及语言简洁且模式化较强这两个方面。针对这些特点,文本提出了分而治之的处理策略,即利用文本模式从病历的不同部分挖掘不同类型的实体。其中,文本模式由Bootstrapping算法利用少量已标注的实体从大规模未标注语料中学习得出。实验结果表明,该方法在挖掘疾病类实体时效果较好,但在挖掘治疗和药品时效果较差,仍需进一步改进。