中文诊断文本的ICD自动编码实证研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:dick_ust
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
《国际疾病分类》(International Classification of Diseases,ICD)是由世界卫生组织制定和颁布的关于疾病和死亡统计的全球标准分类。按照我国卫生部的要求,住院病人病案首页的疾病诊断都应该按照ICD-10的标准进行编码,诊断的编码质量直接影响疾病分类的准确性,是后续医学统计、单病种管理等的基础。但在医疗实践中,由于编码规则繁杂、编码过程具有试验性和循环特征,加上编码人员培训不足、专业编码员稀缺,使得目前各级卫生机构的ICD编码工作的效率以及准确性均难以保证。为了辅助编码人员的编码工作,已有学者致力于研究中文语境下的自动编码,但是较于英文语境下的自动编码,中文诊断文本的自动编码研究在范围上和深度上仍然较为局限。基于此,以简化编码工作、提高编码员的编码效率为研究目标,本文对于“中文诊断文本的ICD自动编码”,即“在中文语境下利用计算机的技术辅助完成诊断的ICD编码”进行了全面的实证研究。具体地,文章从算法、数据、实验以及系统开发四个层面展开。首先,在算法层面,对于解决所定义的自动编码的两种可行算法:基于实例的方法和基于机器学习的方法的具体解决思路进行了系统性地介绍和分析。在数据层面,主要包括提供诊断编码关系的人工编码历史库以及用于嵌入式词向量训练的语料库。此外,考虑到现有数据的有限性,利用网络爬取对数据集进行了相应扩充。进一步地,基于上述数据,在实验部分通过设计一系列实验对算法的有效性进行了验证和比较,并在自动编码的任务情境下初步探究了中文医疗文本处理任务中存在的一些普遍性问题,包括相似性函数的选择与设计、特定领域语料库缺乏的情况下用一般的语料库替代特定领域文本语料库的可行性、以及在分词准确性难以保证的情况下分词的必要性。最后,在系统开发层面,为了更好地服务于ICD自动编码实践,综合本研究提出的模型、经扩充后的数据集以及实验结果,本文进行了自动编码的需求分析、系统设计、以及系统实现。ICD自动编码系统的开发完成标志着“ICD自动编码研究”执行层面工作的完成。
其他文献
近年来,现代化工行业不断发展,生产过程中产生的工业废水得不到合理地处理,给人类的身体健康带来了不可逆转的危害,并且直接威胁着人类的生存和发展。作为近年来逐渐兴起的一
术者杨某某,36岁,孕3产2,2产均为顺产。末次产龄是5年前。术者既往体健,月经规律。数年一直未行身体检查,并不知道其存在双子宫。于今年5月中旬自诉停经50+天,到我院门诊要求给予行
女性创业动机可分为主动型创业、被动型创业和偶然型创业,三者所占比例基本相当,其中,'80后'女性群体的创业动机更倾向于'实现个人价值'等内部动力和主动创
目的:探讨小儿肺炎支原体感染的流行病学特点、护理和l健康教育。方法:随机对3年来本地区1663例小儿呼吸道感染患儿进行血清肺炎支原体抗体检测,并分析其流行病学特点。结果:1663
在自然界中不乏存在着大量天然形成的功能多样的多孔结构,有些多孔结构在维持生命体中稳定且快速的生化过程起到了重要的作用。在人类没有掌握生产多孔结构的技术之前,往往会
酒精,化学名乙醇,是世界上常用的神经性药物之一,由过量饮酒所致的酒精中毒是一种常见的疾病,可导致全身各器官发生疾病,其中以中毒性神经病最为常见,近年来其发病率有上升趋势。
使用自行设计的超高真空金属系统和气体样品净化装置,以引进的Gastrace-s型气体分析四极质谱计为分析器,以纯度为999%的3He和4He气体为标准气样,对微量气体样品中He同位素的四极质谱峰高比测定法进行了
目的 :探讨联用阿托伐他汀与曲美他嗪治疗慢性心力衰竭的效果及安全性。方法 :将我院2012年8月至2014年6月收治的88例慢性心力衰竭患者随机分为联合组与对照组,为对照组44例患