论文部分内容阅读
随着大数据时代的到来,“智慧医疗”已经成为全球医疗服务产业的发展趋势。作为医疗信息化的载体,电子病历蕴含大量的医疗健康知识。电子病历中的知识可以为医疗诊断、用户健康管理及医疗协调等领域提供服务。挖掘电子病历中的知识离不开自然语言处理及信息抽取技术。词性标注是自然处理技术的基础,对其进行研究有助于后续句法分析及信息抽取任务的展开。由于标注语料的匮乏,目前面向中文电子病历的分词和词性标注研究还处于空白阶段。与开放领域语料不同,中文电子病历含有大量的专业术语、缩略词和模式。因此,开放领域的词性标注模型并不能直接用于中文电子病历的标注。为了更好地进行词性标注模型的研究,本文首先构建了中文电子病历分词和词性标注语料。本文提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料的词法统计差异,系统地分析了通用标注模型在电子病历中的错误分布。为进行适用于中文电子病历分析的自然语言处理技术研究奠定了基础。基于对中文电子病历标注语料的分析,本文首次提出适合中文电子病历的词性标注模型。首先对电子病历进行初步标注,选择使用基于字的分词和词性标注联合模型,以达到避免错误传递及使用词性标注信息提高分词精度的目的;然后,利用中文电子病历含有一些常用语言模式的特点,通过使用基于转移的错误驱动方法学习到的规则,对初步标注结果进行修正,从而提高标注精度。针对跨领域标注问题,本文通过调整基于字模型里中文电子病历独有特征的权重有效地提高了标注效果。实验结果表明:本文中构建的模型,在人工标注的测试语料上,分词和词性标注F1值分别达到94.75%及93.82%。