【摘 要】
:
随着医疗信息化的发展,海量、分布、异构的医疗数据随之产生,其存储于各类医疗信息系统导致数据难以管理和利用。同时,电子病历作为医疗数据的重要组成部分,其快速增长使得医务人员难以准确快速的查找目标电子病历信息,病历数据的组织与归类处理可以为其检索提供基础。现有的文本聚类系统通常针对单一数据源,无法解决病历数据多源的问题,并且无法实现对数据的有效管理。导致无法实现对海量电子病历进行高效快速的自动化归类处
论文部分内容阅读
随着医疗信息化的发展,海量、分布、异构的医疗数据随之产生,其存储于各类医疗信息系统导致数据难以管理和利用。同时,电子病历作为医疗数据的重要组成部分,其快速增长使得医务人员难以准确快速的查找目标电子病历信息,病历数据的组织与归类处理可以为其检索提供基础。现有的文本聚类系统通常针对单一数据源,无法解决病历数据多源的问题,并且无法实现对数据的有效管理。导致无法实现对海量电子病历进行高效快速的自动化归类处理和主题抽取。采用面向数据的体系结构(DOA,Data Oriented Architecture)结合聚类分析方法能够有效解决上述问题。DOA面向数据和以数据为核心,通过数据注册中心(DRC,Data Register Center)管理数据,能够有效整合多来源、多种类的病历数据,为后续病历数据的管理、处理和分析提供有力的支撑。聚类分析能够使医疗机构在病历数据处理中无需使用人工标注就能实现病历数据的分类和提取有效信息。因此,本文以DOA为基础,建立了一套基于DOA的病历文本聚类分析系统。通过5000份实际病历数据的处理和实验,结果表明本系统功能和性能达到了预期的设计效果。本文主要研究内容如下:(1)从DOA思想出发,分析病历文本数据的特点与挖掘需求,设计针对病历文本数据的元数据注册规范,研究元数据注册方法以及DRC数据注册中心的实现方案。(2)研究了病历数据的聚类方案,以实现对病历的归类,具体包括使用Canopy算法进行聚类初始点选取,使用K-means聚类算法对文本向量和DRC中的Simhash值进行聚类分析。(3)研究了病历文本的预处理方法,具体包括文本分词、停用词过滤、特征提取、TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文本频率)计算和建立文本向量,以解决将文本数据转换为文本向量的问题,为实现文本聚类处理提供输入。(4)研究了使用Map Reduce编程模型对K-means算法进行并行化设计的具体实现,针对局部质心到全局质心的计算过程进行优化,提出了基于Combiner改进的优化策略,将Combiner阶段的局部质心计算延迟合并到Reduce阶段全局质心获取,有效的提高了聚类质量。本文研究成果与创新点如下:(1)提出了一种针对病历文本挖掘的DRC数据注册规范。研究病历数据的特点与挖掘需求,设计了适用于病历数据管理与挖掘的数据注册规范并提出对应的注册方法与实现方案。(2)提出了一种基于DRC数据注册信息Simhash值进行聚类实现病历文本归类的方案,其聚类效率相比于文本聚类有了进一步的提高。(3)提出了一种改进Combiner处理过程的K-means聚类并行化设计方案,有效的提高了聚类的质量。
其他文献
本试验研究了三种复方保健剂在种鸡中应用效果。选取产蛋日龄相同、产蛋率相近的384只海蓝褐种用母鸡,将其分成四组,即试验1组(对照组)、试验2组、试验3组和试验4组;每组96只
哺乳动物卵巢中,99%的卵泡会在不同发育阶段闭锁。颗粒细胞(GC)凋亡是动物出生后卵泡闭锁的始动因素。蛋白质是生命活动的执行者。比较健康卵泡(HF)和闭锁卵泡(AF)内GC蛋白表达谱,对探明哺乳动物卵泡闭锁的发生机制,提高优秀母畜繁殖潜力、治疗某些不孕症具有重要意义。本研究采用串联质谱标签(TMT)技术比较了来自直径1~2mm的健康、闭锁的猪小有腔卵泡GC的蛋白表达谱,并对差异表达蛋白进行了 GO
近年来,中国移动网络市场越来越大,这使得隐匿其中的有害应用也越来越多。提供违规功能的有害应用为了躲避审查,其应用的描述内容常为正常文本,仅从描述信息无法判断是否是有害应用,但通过查看有害应用评论信息中的某些暗语可以发现其中端倪,因此,需要对中国移动应用市场的应用文本进行仔细研究。但由于不能及时发现和了解移动应用暗语,极大地影响了网络安全员对应用的文本语料分析。研究发现,移动应用暗语主要是由目前已被
研究背景与目的:血液中的肿瘤标志物水平是临床中常用于恶性肿瘤的诊断和治疗效果评估的参考指标。目前研究显示,风湿性疾病患者发生恶性肿瘤的风险较一般人群显著增加。因此,为了明确风湿系统疾病患者是否合并有恶性肿瘤,临床中常进行血肿瘤标志物水平等实验室检查及相关影像学检查。但是,在临床诊疗过程中发现,一些排除恶性肿瘤的中轴型脊柱关节炎(axial Spondyloarthritis,ax-SpA)患者仍存
目的通过观察委中刺络拔罐结合常规药物治疗膝关节急性痛风性关节炎(AGA)的临床疗效,为该法在临床进一步推广应用奠定基础。方法根据纳入、排除标准收集膝关节AGA患者60例,采用随机数字表法随机分为对照组和试验组,各30例。对照组予口服秋水仙碱片:首天首剂口服1mg,之后每小时口服0.5mg,服用至膝关节症状缓解或出现胃肠道反应(腹泻或呕吐等)或达到每日6mg最大量口服剂量时停药,在第2、3日每日口服
目的:研究分析影响淋巴结阴性胃癌患者预后的危险因素,进而应用递归分割分析法(Recursivepartitioning analysis,RPA)构建新的针对淋巴结阴性胃癌患者的肿瘤分期系统,并基于此探讨新分期在此类患者预后评估及诊治中的价值。方法:采用回顾性分析研究方法,收集2012年7月至2018年7月在扬州大学附属苏北人民医院接受根治性胃切除术的淋巴结阴性胃癌患者的临床病理资料作为训练集(共
山湖水库灌区与河王坝水库灌区位于南京市六合区的竹镇镇与原马集镇境内,江淮分水线南北向穿过两个灌区。其中山湖水库灌区位于长江流域,河王坝水库灌区则隶属于淮河流域。灌区内分布有低山、丘陵、岗地等地形较为复杂,易发生干旱灾害,当地农业带来了巨大威胁。在现状水平年(2016年)时,山湖水库在保证率P=75%和P=95%时分别缺水1165.0万m3、2164.4万m3,在远期水平年(2030年)时,山湖水库
在我国冬季,冰雪天气已经成为北方城市的常态,道路积雪结冰对交通运输和出行安全带来了严重影响。撒布融雪剂的除雪方式展现了它巨大的优越性,目前面临的问题主要是在融雪剂的优选上存在一定的误区,很容易造成融雪剂的浪费和失效。此外,融雪剂使用过程中,在道路表面极易产生二次结冰现象,将对道路行车安全造成威胁。为此,本文将以融雪剂的融冰效率以及融雪剂溶液的二次结冰规律为主体进行研究,为融雪剂的优选提供理论基础,
目的建立RAW264.7源性巨噬细胞M1表型极化模型,评价白藜芦醇(Res)抑制巨噬细胞向M1表型极化的效果及作用机制,为临床研究提供实验依据。方法1.建立LPS+IFN-γ诱导RAW264.7源性巨噬细胞向M1表型极化模型,评价Res药效利用LPS+IFN-γ联合诱导RAW264.7源性巨噬细胞,使其极化成M1表型巨噬细胞模型,形态学观察对照组与模型组细胞形态;流式细胞术检测对照组与模型组M1型
在中高纬度地区,由于气温的季节性变化,融雪是一种典型的自然现象。融雪产生的融雪径流是融雪季节径流的重要组成部分,是许多河流的主要补给源。在全球变暖的大背景下,全球积雪逐渐融化,融雪水的变化更容易对当地的生态环境和生产生活产生显著影响。因此,模拟融雪径流对流域水资源的可持续利用和生态安全具有重要的现实意义。本研究应用分布式SWAT(Soil and Water Assessment Tool)模型,