基于医学语言处理的面向任务的信息提取框架构建及应用

被引量 : 0次 | 上传用户:jiangyongan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学信息化的目的是提高医疗质量和降低医疗成本,这在很大程度上都依赖于对临床数据的有效分析和利用。然而在实际的临床环境中,服务于自动数据利用的结构化数据是有限的,大量的有用信息仅仅存在于叙述性文档中,这就使得基于医学语言处理的文本信息结构化提取成为医学信息学研究的热点。在中国,尽管自然语言处理技术已经有广泛应用,然而这些并不适用于临床环境;同时我国还面临着缺乏完整、统一和规范的医学术语集的挑战;最后,统一的文本提取框架也无法自适应于多种多样的临床任务。所以有效地利用医学语言处理技术并使之服务于临床决策系统仍然是一个巨大的挑战。本论文针对以上问题从信息提取框架的设计和具体的提取算法两大部分展开研究和探索。首先,针对当前临床实际中的多样性需求,结合临床文档的生成方式,建立了一个面向任务的自然语言处理提取框架,在线监控各类临床文档的生成,并动态创建各类信息提取任务。针对我国有限的词典资源的现状,设计了一个不断完善的本体生长机制,通过编辑平台自定义的方式添加任务和任务相关的概念,既满足了临床任务的提取需求,也满足了医学术语字典表的扩充需求。再针对不同的临床任务,提取特定的临床概念并且更新到特定数据库中,服务于临床决策支持以及临床数据挖掘等应用。其次,针对临床中不同类型的临床文本特点和不同的数据利用需求,在该框架的基础上设计和实现了三个提取任务:概念-数值对的提取、药物不良反应关系提取以及症状时间线的提取。并利用真实的临床语料,对三个任务进行了评估。概念-取值对的提取以产科超声检查报告为对象,提取准确率为98.5%,召回率为97.8%;在开展病程记录中药物不良反应事件提取过程中,先收集到3668份药物说明书构建了39583个药物-不良反应关系对的知识库,接着从病程记录中提取药物不良反应事件的准确率为80.8%;最后病程记录中症状的提取准确率达到97.2%,召回率达到58.3%。本论文通过以上两个部分的有机结合,初步建立了面向任务的自然语言处理框架以及提取算法。目前该框架已经部署到一个实际的临床环境中,为数据利用提供了很好的基础。
其他文献
《金瓶梅》中的丧葬描写贯穿全书的始终,从第一回卜士道的丧葬到最后一回庞春梅的丧葬,丧葬描写几乎占据全书的三分之一,尤其以李瓶儿的丧葬描写最为详尽。作者用了五回的篇
专家系统是人工智能中最活跃的方向之一,目前对其应用已渗透到各种领域。在纺织工业中,为了保证各类纺织机械运行的可靠性、提高设备生产率,应当对各类纺织机械的故障进行检
在我国古代杂文学背景下,汉代官文书具有独特的艺术魅力与文学光彩,且与宏阔朴健之大汉气象一脉相承。汉代官文书有长篇深论、引经稽古之宏大气势,也有经世致用、文死谏之健迈气
用户生成内容(UGC)是指通过非专业渠道,能够反映一定量的创造性努力,且能被公开获取的内容。这些由业余人士完全依赖数字环境且无需经济激励创作的内容给UGC网站创造巨大的经
本文分析了当前广播电视数字版权保护的需求与现状,介绍了我国当前已经建立的ChinaDRM生态体系,并针对当前广播电视产业的演进发展,提出了我国数字版权管理生态体系演进发展
在“新常态”下,能源革命已经成为我国转变经济增长方式的重要组成内容,能源发展的目的已经不是简单的为经济发展提供重要支撑,其自身的发展所带来的社会、经济与环境效益也
白色革深受人们喜爱,然而白色革在使用过程中引发的黄变常常困扰着人们。皮革的黄变主要是由皮化材料中的不饱和键及皮胶原在光热条件下发生氧化所引起,提高皮革耐黄变性的关
随着海峡两岸休闲农业合作的逐步发展,各相关主体之间的博弈也逐渐显现。在此过程中,涉及的主要行为主体有地方政府、农户以及台商企业。文章从各主体的利益行为分析出发,构
本文介绍了民办高校兼职教师队伍的概况,分析了民办高校兼职教师管理中存在的问题,有针对性地提出对高校兼职教师的创新性管理——柔性化管理:建设优良的学校文化,增强凝聚力;建立
近年来,日照市各类新型农业经营主体呈现出蓬勃发展的良好势头,在加快农业转方式调结构、增创农业农村发展新优势中发挥了重要作用。但由于发展时间较短,多数新型经营主体无