电子病历中的概念抽取研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mm7458106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各国政府对健康医疗信息系统的投入,电子病历信息挖掘得到越来越多学者的关注。电子病历中蕴含的知识能够应用在医疗诊断、用户制定健康计划和医疗问答等领域中。概念抽取作为信息处理的基础模块,在电子病历的信息挖掘上不可或缺。与传统的文本相比,电子病历有其自身的特点。电子病历中包含大量专业术语、医疗习惯用语、以数字和单位表示的检查结果、缩写词、模式较强但结构不完整的句子,并且以半结构化的方式组织各部分内容,此外,由于涉及到病人的隐私,目前公开可用的病历数据很有限。这些特点加大了电子病历概念抽取的难度,在2010年i2b2举办的评测中,电子病历概念抽取任务最好系统的F值为0.8523,与传统领域概念抽取效果有一定差距。为了更好地抽取电子病历相关概念,本文使用了CRF、最大熵、MIRA三种基本学习模型并利用实体识别的基本特征建立了baseline系统。在利用最大熵模型时,由于词分类结果明显优于概念抽取的结果,本文将当前位置前一个词的标签作为模型特征,从而很大幅度地提高了最大熵识别概念的效果。针对电子病历的特点,本文从特征扩展、学习模型组合以及其它领域资源的使用三个方面进行研究,从而提高了概念抽取的效果。在特征扩展方面,充分利用了电子病历的结构特点和构词字符信息,并借助于医疗相关的资源,两类特征各使概念抽取的F值提高了约一个百分点,此外,通过挖掘病历中名词潜在的语义知识使概念抽取F值提高了约两个百分点;在学习模型的组合上,尝试了bagging方法以及堆积策略,前者组合优化相同学习方法的结果,后者综合多个不同分类器的结果。堆积策略取得了显著效果,系统的F值达到了91.1%;在其他资源的使用上,通过基于实例的迁移学习方法将不同机构的电子病历数据以及生物文献数据用于目标电子病历概念抽取任务上,结果证明在目标领域数据相对少的时候,提升效果比较明显。
其他文献
大量的具有无线通信功能的各种传感器节点组成了新一代的无线传感器网络,这些节点采用多跳方式通信,并且可以构成自组织无线网络。在社会生活、环境监测、航空航天、军事国防等
目前世界上最新的文语转换系统(Text-to-Speech)虽然能够合成可以很容易理解的话语,但是缺乏自然语言中所蕴含的韵律特征。这是由于单句录音构建的语音语料库所训练出来的模型在
互联网的快速发展对大规模数据处理技术提出了新的挑战,目前业界广泛使用的数据处理系统多数基于Google提出的MapReduce并行处理框架,MapReduce在处理静态批量数据时优势明显,然
我们生活在一个信息时代,每天接触的信息不计其数。而图像作为信息载体之一,是人们获取信息的有效途径。科学研究表明,人类接受的外界信息有3/4是通过视觉器官来得到的。与声音
社会化标注是用户产生的用于描述网络资源的关键词,区别于传统的自上而下的信息传播方式,社会化标注来源于广大的互联网用户,作为一种新兴的重要的信息资源,能够与广大的互联
中国的高速铁路这些年快速发展,其对公众生活影响愈发广泛。高速铁路的安全运行关系到旅客的健康和生命,显得尤为重要。高铁接触网作为向电力机车供电的设备,其上有可能附着
随着Web2.0的快速发展,网站对于Ajax技术的应用越来越多。Ajax技术通过异步调用,进行页面局部刷新,在很大程度上提高了用户的体验度、减少了网络传输流量以及提高了网站的访问速
本文研究了基于视频图像实时传输和光谱数据采集的作物病虫害采集终端,以及远程控制终端搭载的农药喷洒设备进行动作的技术。首先,针对当前作物病虫害防治领域存在的问题和不
近年来,随着互联网、数据存储以及计算技术的飞速发展,使得信息的收集与分析变得越来越便捷、完整与精确。然而,这些以信息共享、数据挖掘与知识发现等为目的的数据发布过程
离散元方法(Discrete Element Method)是将计算的对象离散成大量相互独立的单元,并定义单元间相互作用的方法。通过离散元的方法可以解决很多现实中的问题,如模拟泥石流、滑