论文部分内容阅读
症状表型(症状体征)是临床数据和医学题录文献数据中重要的实体性信息,是中西医诊断与治疗的主要依据。但医学数据中的症状表型信息往往以自由文本型的临床病历(以主诉和现病史为主要文本内容)和题录文献数据为主要载体,因此,进行症状表型命名实体抽取是利用症状表型信息的首要关键步骤。近年来,面向临床病历的命名实体抽取成为热点方向,但主要相关研究以疾病,药物和临床问题等为主要抽取目标,对更具复杂性的症状表型实体抽取研究仍涉及较少。鉴于症状表型信息在中医诊疗中的重要性,本文结合中医临床病历(以现病史为主)和PubMed题录文献文本开展症状表型命名实体的抽取方法研究,通过构建的较大规模语料集和未标注数据,进行了基于Bootstrapping,分类学习(条件随机场和结构化支持向量机)和特征学习(词嵌入与网络嵌入)等多种方法研究,具体研究工作包括如下三个方面。(1)在人工审核和数据预处理的基础上,构建了包含1200个以现病史为主的中医临床病历标注语料。在此基础上,分别研制了基于Bootstrapping的无监督症状表型实体抽取方法和基于条件随机场(CRF)的命名实体抽取方法,其F1值分别达到64.73%和95.03%,表明CRF基本达到了从临床病历现病史文本中抽取症状表型实体的要求;为测试完全开放性的抽取性能,本文分别构建了不同病种,主诉和现病史,以及首诊与复诊等交叉测试语料,CRF的性能分别达到82%,58.21%和81.18%等,为后续进一步的迁移性命名实体抽取方法研究提供了借鉴。(2)通过引入深度特征表示方法(词嵌入和网络嵌入方法),结合结构化支持向量机(SSVM)与CRF分类模型,整合未标注临床病历数据,研制了多种症状表型实体抽取方法(WENER和GENER方法),WENER方法的F1值分别达到了 98.08%(SSVM)和97.63%(CRF);基于字特征的GENER方法的F1值分别达到88.42%和86.01%,而基于词特征的GENER方法的F1值分别达到了 95.04%和 95.00%。(3)针对医学文献中症状表型实体抽取问题,利用1200条PubMed题录文献数据,应用WENER和GENER方法进行分析实验研究,研究表明,WENER方法的F1值分别达到93.58%和93.23%;GENER方法的F1值分别达到93.57%和92.04%。以上研究表明,基于深度表示的症状表型实体命名抽取方法在未标注语料的整合与性能方面都存在较大优势,已经具备一定的中英文命名实体抽取实用价值。通过整合更大规模的未标注语料,将为各类型医学命名实体的高性能抽取提供技术基础,从而促进大规模医学知识图谱的构建和发展。