论文部分内容阅读
随着各国政府对健康医疗信息系统的投入,电子病历信息挖掘得到越来越多学者的关注。电子病历中蕴含的知识能够应用在医疗诊断、用户制定健康计划和医疗问答等领域中。概念抽取作为信息处理的基础模块,在电子病历的信息挖掘上不可或缺。与传统的文本相比,电子病历有其自身的特点。电子病历中包含大量专业术语、医疗习惯用语、以数字和单位表示的检查结果、缩写词、模式较强但结构不完整的句子,并且以半结构化的方式组织各部分内容,此外,由于涉及到病人的隐私,目前公开可用的病历数据很有限。这些特点加大了电子病历概念抽取的难度,在2010年i2b2举办的评测中,电子病历概念抽取任务最好系统的F值为0.8523,与传统领域概念抽取效果有一定差距。为了更好地抽取电子病历相关概念,本文使用了CRF、最大熵、MIRA三种基本学习模型并利用实体识别的基本特征建立了baseline系统。在利用最大熵模型时,由于词分类结果明显优于概念抽取的结果,本文将当前位置前一个词的标签作为模型特征,从而很大幅度地提高了最大熵识别概念的效果。针对电子病历的特点,本文从特征扩展、学习模型组合以及其它领域资源的使用三个方面进行研究,从而提高了概念抽取的效果。在特征扩展方面,充分利用了电子病历的结构特点和构词字符信息,并借助于医疗相关的资源,两类特征各使概念抽取的F值提高了约一个百分点,此外,通过挖掘病历中名词潜在的语义知识使概念抽取F值提高了约两个百分点;在学习模型的组合上,尝试了bagging方法以及堆积策略,前者组合优化相同学习方法的结果,后者综合多个不同分类器的结果。堆积策略取得了显著效果,系统的F值达到了91.1%;在其他资源的使用上,通过基于实例的迁移学习方法将不同机构的电子病历数据以及生物文献数据用于目标电子病历概念抽取任务上,结果证明在目标领域数据相对少的时候,提升效果比较明显。