面向中文电子病历的词性标注技术研究

被引量 : 0次 | 上传用户:adige
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,“智慧医疗”已经成为全球医疗服务产业的发展趋势。作为医疗信息化的载体,电子病历蕴含大量的医疗健康知识。电子病历中的知识可以为医疗诊断、用户健康管理及医疗协调等领域提供服务。挖掘电子病历中的知识离不开自然语言处理及信息抽取技术。词性标注是自然处理技术的基础,对其进行研究有助于后续句法分析及信息抽取任务的展开。由于标注语料的匮乏,目前面向中文电子病历的分词和词性标注研究还处于空白阶段。与开放领域语料不同,中文电子病历含有大量的专业术语、缩略词和模式。因此,开放领域的词性标注模型并不能直接用于中文电子病历的标注。为了更好地进行词性标注模型的研究,本文首先构建了中文电子病历分词和词性标注语料。本文提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料的词法统计差异,系统地分析了通用标注模型在电子病历中的错误分布。为进行适用于中文电子病历分析的自然语言处理技术研究奠定了基础。基于对中文电子病历标注语料的分析,本文首次提出适合中文电子病历的词性标注模型。首先对电子病历进行初步标注,选择使用基于字的分词和词性标注联合模型,以达到避免错误传递及使用词性标注信息提高分词精度的目的;然后,利用中文电子病历含有一些常用语言模式的特点,通过使用基于转移的错误驱动方法学习到的规则,对初步标注结果进行修正,从而提高标注精度。针对跨领域标注问题,本文通过调整基于字模型里中文电子病历独有特征的权重有效地提高了标注效果。实验结果表明:本文中构建的模型,在人工标注的测试语料上,分词和词性标注F1值分别达到94.75%及93.82%。
其他文献
外向型企业是推动我国经济发展的重要动力之一受2008年国际金融危机的爆发和欧债危机等诸多因素影响,我国外向型企业原本的生产优势正在逐步消失在欧美市场消费外需低迷国内市
随着历史新课程改革的不断深入,提高高中历史课堂教学有效性已成发展趋势,这对于很多历史教师而言机遇与挑战并存。历史教师要根据有效教学的理论去探讨提高历史教学有效性的对
目的观察贝母辛对四氯化碳(CCl4)致大鼠肝纤维化的保护作用。方法实验设对照组,模型组,贝母辛低、中、高剂量(2.5、5、10 mg/kg)组。除对照组外,其他组大鼠每隔3天ip给予CCl4
教育权利实现的基点问题,是教育权利实现研究的前提.我们从权利的基本形态入手,认为教育权利的法定化(法定权利),不能等同于教育权利的实现,但它连接着应然权利与实然权利(教
素质教育是当前最热门的教育话题之一。如何把对素质教育繁多的概念演绎转变为广大教育实践者的切实行动,笔者以为是当务之急。课堂是实施素质教育的主阵地,对课堂教学中符合素
对于任何一个工程项目而言,测量工作都是其重要组成部分,对后续施工精确度与规范性有着重要影响。基于此,文章主要对数字化测绘技术的概念、优点及其在工程测量中的应用展开
近年来随着社会、环境、工作强度等因素的影响,前列腺炎的发病率逐年递增,并呈病因复杂、低龄化的趋势.快速有效确诊病原体是诊治前列腺炎的关键.我科应用超高倍多媒体医学显
采用SSR分子标记技术对50份不同来源的籽用西瓜材料进行遗传多样性研究,并基于SSR分子标记聚类分析采用最小距离逐步抽样法构建籽瓜初级核心种质库。研究表明:(1)从106对SSR随机
本次试验在FTO导电玻璃基底上通过水热反应制备一维取向金红石结构的TiO2纳米线阵列材料,以N719染料敏化光阳极,组装染料敏化太阳能电池,测试器件的光电性能。主要研究材料的生
近年来能源消耗和环境污染问题日益严重,为使汽车达到节能减排的目的,汽车轻量化技术无疑是有效的解决手段之一,油价的不断攀升和雾霾天气的频发,迫切需要汽车轻量化技术快速发展