基于电子病历数据的疾病预测模型构建研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:Lxue_hlp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:本研究从医学信息学的视角出发,以搭建疾病预测模型构建策略为目的,探究海量异构的电子病历数据中隐性知识到显性知识的发现途径。同时,进行糖尿病视网膜病变预测模型构建的实证研究,论证理论策略的科学性、合理性、可操作性、可拓展性,并为疾病的预防、诊断、控制、治疗提供决策支持。方法:首先通过文献调研综述国内外该领域的研究现状,再以知识发现、信息链、决策支持理论为指导,探究疾病预测模型构建策略。然后,利用国家科技资源平台之一的人口健康分平台,提供的糖尿病患者的诊疗数据集进行实证研究。在实证研究过程中,数据预处理过程分析处理缺失数据,采用分层均值填补法,对目标数据集中的缺失数据进行先分层再填补;数据降维阶段,利用主成分分析法提取特征根大于1的因子、累计贡献率大于85%的因子及logistic回归方法提取差异有显著性的因子分别进行降维,选取特征向量;预测模型构建阶段,首先平衡数据集并确定基线精度,以决策树算法构建预测模型,以logistic回归算法、支持向量机、朴素贝叶斯、径向基函数神经网络算法构建对照实验模型。最后,根据查准率、召回率、正确率、F值、ROC曲线下面积、Kappa值综合评价所构建预测模型的效果。结果:⑴在知识发现、信息链、决策支持理论的指导下,从数据集成与清洗、数据填补与降维、模型构建与评价等环节出发,制定了基于医疗大数据的疾病预测模型构建策略;⑵缺失数据填补阶段,制定了缺失数据填补方法,先将目标数据按不同性别、不同年龄段是否患病划分为多个子集,通过X2检验后得到目标数据集在不同性别及不同年龄段上是否患病的差异具有显著性。因此,将数据集按照性别、年龄段、是否患病进行分层,再利用分层均值填补法进行填补;⑶数据降维阶段,用同种方法分析三种降维数据集和未降维原始数据集,经方差分析发现四种结果差异具有显著性,且第一种降维方法得到的模型准确率更高,预测效果更好;⑷预测模型构建及评价阶段,经SMOTE方法对分类不平衡的未降维数据进行平衡,并确定预测模型基线精度为71.9166%。以第一种降维方法处理后的数据集为研究对象,利用决策树算法构建预测模型,得到模型的真阳性率(TP)为0.975、假阳性率(FP)为0.045、查准率(Precision)为0.974、召回率(Recall)为0.975、F值(F-Measure)为0.974、ROC曲线下面积(ROC Area)为0.975,一致性检验(Kappa)值为0.936;⑸对照试验模型评价阶段,选择logistic回归、支持向量机、朴素贝叶斯、径向基函数神经网络构建对照试验模型,经方差分析得到对照实验模型结果与决策树算法结果具有显著性差异,再经组间两两多重比较,得到决策树算法效果更好。结论:⑴理论研究中,制定了疾病预测模型构建策略,该策略构建了有效的数据填补方案,选择出最优的数据降维方法,能灵活高效的指导海量异构电子病历数据挖掘的过程,具体环节包括:数据集成与整合、清洗与规范化、缺失值处理、数据筛选与降维、数据平衡、模型构建与评价等过程。⑵实证研究结果契合理论策略的流程和原理,预测模型经一系列指标评价及对照试验模型的验证,得到了效果最优的预测模型。证明基于电子病历数据的疾病预测模型构建策略科学、合理、有效,该策略能够为医学信息知识发现、整合利用、决策支持提供参考。
其他文献
<正>随着甘肃平凉供电公司"三集五大"体系的全面建成,"大检修"体系下的配网运检业务发生了诸多变化。在新形势下,县级供电公司如何探索配网运维精细化管理之策,提升配网运维
为评价碧流河水库污染状况和对未来发展提供指导依据,于2014年8月至2015年5月按季度采样研究碧流河水库及其流域河流理化因子、浮游植物种类组成、密度、生物量及物种多样性,
<正>2001年9月11日,美国,震惊全世界,自1973年始就毅然耸立的标志性建筑双子大楼在恐怖分子的有计划有组织进攻下轰然倒塌。消息传来,我们这些当时还似懂非懂的高中生一度欢
<正>在"学习践行强军目标、做新一代革命军人"主题教育活动中,我们紧紧围绕"理论灌输牵引、配合活动深化、岗位实践见效、制度机制固化"的目标思路,从立起军人样子中选题破题
NPC1L1是近年来人们研究高脂血症的重点内容,该蛋白已被证实在胆固醇的肠道吸收和胆汁分泌中发挥了关键作用。NPC1L1调节体内胆固醇的生物合成,是维持生物体胆固醇动态平衡的
十八大以来,习近平围绕我国传统文化的思想精华、时代价值、历史地位和具体弘扬途径展开了深入研究,形成了系统的、科学的马克思主义传统文化观,本文分四部分对其进行了思考
菌落形态是鉴别和分类菌种的重要特征之一。以分形和多重分形理论为基础,以计算机图像识别技术为手段,考察霉菌(绿僵菌)菌落形态的定量描述,分别测定各菌落样本的分形特征(覆盖维)和
近年来,互联网发展迅速,网络数据量飞速增长,这使得传统的方法很难从海量的网络数据中有效的提取出有用的信息。信息抽取与实体知识库的提出可以有效的解决这一问题。论文基
采用TaqMan荧光标记探针技术原理,建立副结核分枝杆菌特异的实时荧光PCR快速检测鉴定方法并组装形成临床诊断试剂盒。试剂盒提供荧光PCR与样品核酸提取试剂,检测全程包括样品
V法造型在生产中的应用越来越广泛,但V法造型设备的发展却远满足不了生产的需求。本文介绍了穿梭式造型机V法造型线的设计思路,V法造型线的组成和工作特点。经生产实践证明,