论文部分内容阅读
在医院的现代化管理中,病历作为医疗活动信息的主要载体,不仅是医疗、教学、科研的第一手资料,而且也是对医疗质量、技术水平、管理水平等进行综合评价的依据。欲在大量的检查报告中抽取符合一定条件的文档进行分析并总结(如研究某种疾病的易感人群的年龄段及地域分布等规律,某种症状与某种疾病之间的关系),对病历进行文本分析是开展上述工作的必要途径之一。在医院诊疗过程中,病历的录入,尤其是诊断报告的录入,目前大部分的系统还是选用医生自由录入的方式,这就形成了大量的叙述性报告。医院作为一个特殊的领域,日信息吞吐量极大,用户要在海量数据中得到自己需要的数据是十分困难的,这为在自由文本中对某些信息进行统计、查询带来一定的困难,同时大量非结构化,非标准化的文本信息也不利于医院之间的信息共享与统计。因此,对自然语言表达的病历文书进行结构化的研究探索是一件十分有意义的事情。目前,电子病历的研究开发人员提出了很多实现结构化的方法,大多数是采用结构化表单录入的方式,但是这种方式不能表达自然语言的所有语义信息。本论文从自然语言理解的角度出发,基于现有的自然语言处理技术的成果,以内窥镜检查报告为例,对自然语言表达的病历文书进行结构化研究。本论文的主要工作包括:利用现有的自动分词研究成果,对文本报告进行初步分词。本论文采用中国科学院自然语言处理研究所开发的分词系统ICTCLAS作为初步分词的基础件。对初步分词结果进行进一步的调整。利用专业词典进一步识别MST(Minimal Standard Terminology)标准词汇,以及能够转化成标准MST词汇的非标准MST词汇。对分词结果进行文本解析,输出结构化内容。分析MST标准的结构特点以及MST标准术语之间隐含的相互关系,借鉴UMLS超级叙词表的关系数据模型及与语义网络框架,建立MST语义网络知识库,利用这个知识库,分析每个词汇的语义类型以及相互关系,输出符合MST标准的结构化报告。本论文的重点在于对设计方法的研究。在实验中本论文以胃镜检查报告为实验数据,得到的叙述性报告转化到MST结构化报告的准确率为92.3%。从最初的设计到应用于实际这一过程证明,本论文提出的基于自然语言处理技术的消化科内窥镜检查报告的结构化,方法简单,能够比较有效地完成叙述性报告到结构化报告的转化,为实现电子病历的结构化,提供了一种尝试性的方案。这种方法可以应用于电子病历的其他部分,最终能够实现电子病历的完全结构化、标准化。