面向症状表型的命名实体抽取方法研究

来源 :北京交通大学 | 被引量 : 4次 | 上传用户:yumimiteresa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
症状表型(症状体征)是临床数据和医学题录文献数据中重要的实体性信息,是中西医诊断与治疗的主要依据。但医学数据中的症状表型信息往往以自由文本型的临床病历(以主诉和现病史为主要文本内容)和题录文献数据为主要载体,因此,进行症状表型命名实体抽取是利用症状表型信息的首要关键步骤。近年来,面向临床病历的命名实体抽取成为热点方向,但主要相关研究以疾病,药物和临床问题等为主要抽取目标,对更具复杂性的症状表型实体抽取研究仍涉及较少。鉴于症状表型信息在中医诊疗中的重要性,本文结合中医临床病历(以现病史为主)和PubMed题录文献文本开展症状表型命名实体的抽取方法研究,通过构建的较大规模语料集和未标注数据,进行了基于Bootstrapping,分类学习(条件随机场和结构化支持向量机)和特征学习(词嵌入与网络嵌入)等多种方法研究,具体研究工作包括如下三个方面。(1)在人工审核和数据预处理的基础上,构建了包含1200个以现病史为主的中医临床病历标注语料。在此基础上,分别研制了基于Bootstrapping的无监督症状表型实体抽取方法和基于条件随机场(CRF)的命名实体抽取方法,其F1值分别达到64.73%和95.03%,表明CRF基本达到了从临床病历现病史文本中抽取症状表型实体的要求;为测试完全开放性的抽取性能,本文分别构建了不同病种,主诉和现病史,以及首诊与复诊等交叉测试语料,CRF的性能分别达到82%,58.21%和81.18%等,为后续进一步的迁移性命名实体抽取方法研究提供了借鉴。(2)通过引入深度特征表示方法(词嵌入和网络嵌入方法),结合结构化支持向量机(SSVM)与CRF分类模型,整合未标注临床病历数据,研制了多种症状表型实体抽取方法(WENER和GENER方法),WENER方法的F1值分别达到了 98.08%(SSVM)和97.63%(CRF);基于字特征的GENER方法的F1值分别达到88.42%和86.01%,而基于词特征的GENER方法的F1值分别达到了 95.04%和 95.00%。(3)针对医学文献中症状表型实体抽取问题,利用1200条PubMed题录文献数据,应用WENER和GENER方法进行分析实验研究,研究表明,WENER方法的F1值分别达到93.58%和93.23%;GENER方法的F1值分别达到93.57%和92.04%。以上研究表明,基于深度表示的症状表型实体命名抽取方法在未标注语料的整合与性能方面都存在较大优势,已经具备一定的中英文命名实体抽取实用价值。通过整合更大规模的未标注语料,将为各类型医学命名实体的高性能抽取提供技术基础,从而促进大规模医学知识图谱的构建和发展。
其他文献
随着国内高速铁路的大规模建设,如何提高山地区域高铁的CDMA网络覆盖质量成为一个日渐重要的课题。本文以提升网络效益和质量为目标,通过分析山地区域无线传播环境,对山区隧
安全管理针对建筑工程来说具备非常大的意义,这是确保人身安全以及财产安全的关键工作。但是在安全管理的具体开展当中,还是存在着很多的缺陷,使得安全管理没有得到良好的效
在集成统一的环境下,应用虚拟现实技术、人工智能技术和工程数据库技术等,运用虚拟制造的理论,建立了电控喷油系统虚拟制造的框架,提出了其主模型技术和综合可视化技术等关键
现阶段,我国城市的规模在不断地加大,城市中的车辆以及人口数量急剧增加,对交通环境提出了更高的要求,为了缓解当前的城市交通现状,市政道路工程也在陆续开展。市政道路工程
与大型农田水利相比,小型农田水利投资少、工期短,受到了人们的广泛欢迎,本文介绍了小型农田水利节水滴灌工程的设计要点以及施工管理,以期进一步满足农田的灌溉需求,推动我
在环保发展的大背景下,装配式机电安装可取得更良好的应用成果,通过集中预制的方式,可有效收集各加工环节产生的废弃物,达到绿色安全施工的效果。装配式机电安装具有更强的规
作为我国权力机关,政府的投资项目大多具有公益性和建设性,它在投资过程中承担着投资、运营以及建设等多重责任。本文研究了政府投资项目成本控制与管理的现实状况,对现阶段