文本相似度计算方法在诊断名称数据标准化中的应用

来源 :中国病案 | 被引量 : 0次 | 上传用户:senjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的 选用文本相似度的计算方法和思路进行辅助,以期提高诊断名称数据标准化过程中人工判断的效率.方法 以《疾病分类与代码国家临床版2.0》为例,利用余弦相似度计算文本相似度,用单字与单字组合的穷举分词和频数、逆文本频率指数加权的算法生成文本向量,使用Microsoft Office Excel 2016的函数完成对计算结果的校验.结果 诊断名称数据中单字至9字组的数目中,在3字组之后,字组不再几何级数增长,5字组之后出现下降.通过计算频数和频数乘以逆文本频率指数两种方式构建的文本向量文本相似度得出Ⅰ至Ⅸ字组组合模式下两种文本向量的相似度最大值的结果.在9种字组组合模式下,共计210条诊断名称出现过282次文本相似度最大值的对象不是自身.结论 文本相似度计算方法适用于诊断名称标准化过程,有助于提高数据标准化过程中人工判断的效率.
其他文献
目的:探讨机器人辅助腹腔镜根治性前列腺切除术(RARP)后切缘阳性的影响因素。方法:回顾性分析2014年10月至2019年1月于郑州大学第一附属医院由单一术者行RARP的310例患者的临
精细的土壤肥力空间信息有助于森林质量精准管理。本研究以广西高峰桉树林场为研究区,利用数字土壤制图技术对研究区主要肥力因子空间分布进行数字制图,在此基础上,应用灰色关联度模型对桉树人工林土壤肥力进行了综合评价。结果表明:研究林场的土壤肥力质量较好,土壤肥力水平2级和3级林地面积占总面积的68.6%,1级和4级林地面积占26%,5级林地面积占5.4%;土壤肥力综合指数(IFI)具有较强的空间自相关性。
以神木臭柏自然保护区臭柏(Sabina vulgaris Ant.)、草地等不同植物群落下的土壤为研究对象,选取9个典型样地采集土壤样本,在测定土壤理化性质、分析其空间分布特征的基础上,计算各项肥力指标的隶属度值,用修正内梅罗指数法对样地土壤肥力状况进行了评价。结果表明:(1)土壤养分在不同样地、不同土层之间差异显著(P <0.05);(2)各样地土壤物理性质均表现为无规律的变化;(3)各样地土壤
天气状况对道路交通安全有重要影响。加强道路天气信息管理技术的研究与开发对保障道路安全畅通,减少不良天气对道路运输的危害具有重要意义。道路天气信息管理应从天气信息
将根瘤菌(Rhizobium sp.) G-01、肠杆菌(Enterobacter sp.) San8及粘红酵母(Rhodotorula mucilaginosa) R1等3株产胞外多聚物(Extracellular polymeric substances,EPS)的单细胞微生物接种于供试土壤,进行土培试验和盆栽黄瓜试验,研究接种微生物及作物根系对土壤团聚体形成、团聚体组成变化的影响。结果表明,
时代再进步,社会对人才的需求已经不再只局限于知识文化结构,对于现代的就业市场来说,是否拥有一个健康的体魄,对于求职就业来说同样重要。尤其是对于职业院校的学生来说,他
为探讨压砂条件下灰钙土水分垂直入渗特征,采用土柱模拟法,分别研究了压砂厚度、砂石粒径、土壤初始含水率及灌水量,对压砂条件下水分累计入渗量和土壤湿润锋的影响。结果表明:压砂条件下,土壤水分累计入渗量与入渗时间可以用正相关幂函数拟合。累计入渗量随着压砂厚度的增加呈增加趋势,入渗速率增加值的临界点是压砂厚度为15 cm;当砂石粒径为4.75~20 mm,明显促进水分垂直入渗过程,而砂石粒径20~40 m
目的:探讨偶发性前列腺癌的临床病理特征及预后.方法:回顾性分析580例膀胱癌根治术中96例偶发前列腺癌的临床资料及病理学特征,并进行预后随访.结果:偶发前列腺癌的发生率为1
智能交通系统(ITS)是当前交通行业的热点研究领域之一,更被认为是引导未来交通发展的重要前沿技术。本文提出了水路智能运输系统的概念,分析了系统的功能和构成,从水路运输的
经济增长的终极目标是提高人们的福利水平,而福利水平的提高最主要的是依赖消费水平的提高。并且,与投资和出口相比,消费需求是在长期内保持经济持续均衡增长的根本力量。近