论文部分内容阅读
超声检查报告记录了病人在一次超声检查后得到的影像描述及医生的诊断结果,是重要的临床信息,也是医学领域研究重要的数据来源。为了能够更准确地描述患者的病情,医生通常以自然语言书写各类检查报告的内容,上述非结构化数据描述不利于计算机进行自动分析和处理,在一定程度上阻碍了医疗大数据的信息挖掘和知识发现,因此有必要在分析之前进行结构化处理。目前针对中文自然语言的文本结构化处理方法主要采用的是信息关系抽取技术,然而该方法的可扩展性较差,而超声检查报告中对不同检查部位具有不同的表述特征,所以现有的中文信息关系抽取技术无法适用于超声检查报告文本的结构化处理。为解决上述问题,本文在传统信息关系抽取技术的基础上结合句法分析方法,并根据超声检查报告特有的语法特征,提出了一种基于依存句法分析的医疗指标结构化处理方法。该方法通过分析文本句子结构,获取句中各成分之间的依存关系及语义特征,同时构建依存关系树,最终从依存关系树中获取器官组织或病症的属性描述,进而将非结构化的超声检查报告提取成key-value形式的结构化数据,方便计算机进行分析处理。本文所做的研究如下:首先,本文对现有中文自然语言结构化处理方法的现状进行了归纳,探讨了实体关系抽取、依存句法分析以及基于机器学习方法等结构化处理方法的优缺点,同时对本文涉及的同义词识别方法和文本标注方法的研究现状也作了说明。接着对本文所使用的Word2vec词向量训练工具和Han LP中文自然语言处理工具的工作原理进行了阐述。其次,对本文所提出的基于依存句法分析结构化处理方法的整体框架作了说明,分别介绍了该框架中的主要模块,并对其中的核心算法依次作了详细说明。设置预处理模块是为了消除一义多词现象,通过神经网络语言模型构建超声检查报告的同义词表得以实现;指标提取模块中利用依存关系树生成结构化模板,并采用切分短句和文本标注相结合的分治剪裁策略简化依存关系树结构,使语法关系更加清晰,提高结构化结果的准确度;在后处理模块中对噪声数据进行修正,同时优化算法,提高其可扩展性。最后,本文使用真实的医院病理检查报告数据作为实验数据集,验证了本文提出的结构化处理方法的可用性及通用性。实验表明,针对超声检查报告的指标词和对应指标值提取的准确率可以分别达到82.91%和79.11%,为相关研究打下了基础。