论文部分内容阅读
随着数字化医疗的快速发展,电子健康数据呈指数级增长,如何充分利用海量的医疗健康大数据提高医疗健康服务水平和质量是当前研究的热点问题之一。在医院信息系统中,同一医疗术语会出现多种不同的提及形式,严重阻碍了医疗数据的整合和利用。把形式多样的医疗术语提及映射到标准的医疗术语,即医疗术语标准化或医疗实体链接,是医疗数据整合和利用的前提。现有医疗实体链接研究主要针对英文电子病历,面向中文电子病历的医疗术语标准化研究相对较少,也缺乏公开可用的标注数据集。常见实体链接可以分成两类——单实体链接和关联性实体链接。单实体常出现在医疗门诊记录中,无上下文信息,常见的实体链接方法为使用基于字符串匹配或基于规则的方法;关联性实体经常出现在住院电子病历的文本中,有上下文信息支持。本文主要研究中文电子病历中的疾病实体的标准化问题,针对门诊数据中的单疾病实体,结合中文疾病名不同表现形式的特点,提出了两种基于编辑距离的单疾病实体链接方法;针对住院电子病历中的关联性疾病实体,首先采用序列化标注的方法——条件随机场,对疾病实体进行自动识别,然后采用融合实体上下文信息的排序方法解决疾病实体的链接问题。为验证方法的有效性,本文选取国内某三甲医院门诊数据库和住院记录中部分记录作为实验数据,以国际疾病分类规范ICD-10(International Classification of Diseases and Related Health Problems,10th revision code)作为链接目标知识库,并邀请医学专家对这部分记录进行人工标注。在该标注数据集上的实验结果表明,本文提出的单医疗实体链接方法在以门诊记录为单元和以疾病名为单元的标准化上明显优于传统方法。在电子住院病历的关联性实体链接问题上,本文使用的基于排序的关联性实体链接方法同样效果显著。