论文部分内容阅读
医学信息化的目的是提高医疗质量和降低医疗成本,这在很大程度上都依赖于对临床数据的有效分析和利用。然而在实际的临床环境中,服务于自动数据利用的结构化数据是有限的,大量的有用信息仅仅存在于叙述性文档中,这就使得基于医学语言处理的文本信息结构化提取成为医学信息学研究的热点。在中国,尽管自然语言处理技术已经有广泛应用,然而这些并不适用于临床环境;同时我国还面临着缺乏完整、统一和规范的医学术语集的挑战;最后,统一的文本提取框架也无法自适应于多种多样的临床任务。所以有效地利用医学语言处理技术并使之服务于临床决策系统仍然是一个巨大的挑战。本论文针对以上问题从信息提取框架的设计和具体的提取算法两大部分展开研究和探索。首先,针对当前临床实际中的多样性需求,结合临床文档的生成方式,建立了一个面向任务的自然语言处理提取框架,在线监控各类临床文档的生成,并动态创建各类信息提取任务。针对我国有限的词典资源的现状,设计了一个不断完善的本体生长机制,通过编辑平台自定义的方式添加任务和任务相关的概念,既满足了临床任务的提取需求,也满足了医学术语字典表的扩充需求。再针对不同的临床任务,提取特定的临床概念并且更新到特定数据库中,服务于临床决策支持以及临床数据挖掘等应用。其次,针对临床中不同类型的临床文本特点和不同的数据利用需求,在该框架的基础上设计和实现了三个提取任务:概念-数值对的提取、药物不良反应关系提取以及症状时间线的提取。并利用真实的临床语料,对三个任务进行了评估。概念-取值对的提取以产科超声检查报告为对象,提取准确率为98.5%,召回率为97.8%;在开展病程记录中药物不良反应事件提取过程中,先收集到3668份药物说明书构建了39583个药物-不良反应关系对的知识库,接着从病程记录中提取药物不良反应事件的准确率为80.8%;最后病程记录中症状的提取准确率达到97.2%,召回率达到58.3%。本论文通过以上两个部分的有机结合,初步建立了面向任务的自然语言处理框架以及提取算法。目前该框架已经部署到一个实际的临床环境中,为数据利用提供了很好的基础。