基于电子病历数据的疾病预测模型构建研究

来源 :青岛大学 | 被引量 : 0次 | 上传用户:hulianwu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以电子病历数据为研究对象搭建糖尿病风险预测模型,探究适应体检数据的空腹血糖预测模型。预测糖尿病患病风险对该疾病的发现和治疗具有指导意义。所构建的模型能使体检者通过体检数据便可预测未来一年糖尿病患病风险。本文基于数据挖掘基本流程,探究适合体检数据的糖尿病患病风险预测模型算法,进行如下工作:对从某体检机构获取的原始数据进行数据预处理,获得7118名体检者连续三年的体检数据;在数据降维过程,使用序列后向选择、主成分分析法(Principal Component Analysis,PCA)和文献法提取出三个不同特征的数据集;使用决策树、随机森林、支持向量机、朴素贝叶斯、逻辑回归五种机器学习算法对三个降维后数据集构建预测模型;最后基于多指标对所有构建模型综合评价,探究更加适合基于体检数据的糖尿病患病风险预测模型的特征选择方法和建模算法。本文研究结果表明,文献法所选择的特征最少,序列后向选择算法和PCA所选特征数量相当,序列后向选择算法和文献法所选特征重合较多;序列后向选择算法和文献法所得数据集在各建模算法上的能效相近,优于基于PCA所选特征构建的预测模型;朴素贝叶斯算法综合评价最低,虽然支持向量机和逻辑回归基于三个数据集上所建模型的准确率较高,但在特异度和接收者操作特征曲线下面积这两个指标上的表现较差;使用文献法和序列后向选择算法,基于决策树和随机森林算法所构建糖尿病预测模型综合评价较好。在使用三年体检数据建立糖尿病风险预测模型过程中,使用序列后向算法和文献法提取特征,基于决策树和随机森林构建模型将能更好的对糖尿病患病风险进行预测。
其他文献
现代工业对系统的估计与控制提出了越来越高的要求。在对实际系统进行建模研究的过程中,模型误差不可避免且形式复杂多样,这导致时滞系统鲁棒状态估计理论研究成果存在局限性大或研究方式复杂的问题。同时,时滞系统的多传感器鲁棒融合技术方面也因此存在着较多问题需要被解决。因此,探究一种局限性小的时滞鲁棒状态估计器并将其推广到多传感器信息融合的工作中是十分必要的。本文提出了一种允许模型误差以任意形式影响系统参数的
科学研究中一个重要的原理是:在多数杂乱无序的事物内部总有一些简单的部位发挥着重要的作用。在数据处理、图像识别、人工智能、机器学习等方面也是如此。随着计算机技术和互联网的大力发展,数据存储技术的提升,原始数据规模变得越来越大,与此同时如何简洁明了地表示数据是目前研究的目标。实验表明多维数据通过合适的降维,减少原始数据的维度,最终提取数据的主要特征,是目前最有效的方法。在目前的研究中,非负矩阵分解在数
随着科技的进步以及产业的进一步升级,具有视觉感知的机械臂也一直是机器人领域中的研究热点。本文针对视觉引导的机械臂控制系统展开研究,利用相机采集到的图像特征信息对机械臂运动实现反馈控制,着重研究了雅可比矩阵在线估计方法及关节控制方法,论文的主要工作及创新点可总结为以下几个部分:1.系统性阐述了雅可比矩阵在线估计方法及关节控制方法发展状况,对各视觉控制方式存在的优缺点进行了探讨,研究机械臂在空间中的位
阻抗控制具有计算量较少,抗扰动能力强及易于进行力控制等优点,成为多关节机械臂力/位控制普遍运用的方法。然而,多关节机械臂是一个具有强耦合、模型参数难以精确获得和未知外部干扰多的高度非线性系统,面对这些问题设计有效的控制器使多关节机械臂系统在未知外部环境中获得较好的位置跟踪效果和保证不错的阻抗控制性能,从而避免多关节机械臂与接触对象产生较大的碰撞力而造成损坏,这是一项具有现实研究意义的工作。本文针对
随着社会的发展和科技的进步,越来越多的3D图像出现在人们的视野中,但这些图像会受采集、传输、处理、存储及压缩等一系列因素的影响,导致其在显示端出现失真,阻碍人们认识客观世界。在立体图像质量评价领域,如何客观有效地评价立体图像质量已成为一项具有挑战性的研究课题。近年来,人类视觉系统(Human Visual System,HVS)的研究在生物学领域内已经取得了重大突破,这也促进了模拟双目视觉特性的立
多智能体系统的协调控制是近年来人工智能的研究前沿,而一致性问题是协调控制的基础问题之一。一致性问题是为智能体设计一种控制输入,使所有智能体通过所设计的控制输入交流信息最终状态趋于一致的问题。然而,传统的一致性协议需要智能体之间不间断地连续通信,因此为了避免大量的通信交互带来的高性能设备要求和资源消耗,事件触发控制机制被引入到一致性问题的研究中。本文在总结前人经验和研究的基础上,运用代数图论、矩阵论
垃圾分类对于垃圾利用和环境保护具有重要意义。自2019年上海推行垃圾分类以来,我国垃圾分类工作取得初步成效,但生活垃圾混装混投的现象仍大量存在,其原因是人们对于垃圾分类规则的掌握不够清晰。因此,研发一款便捷的垃圾分类系统既能减少人们的学习成本,又能解决人们日常生活中遇到的垃圾分类问题。基于此,本文以青岛市垃圾分类标准为规则,基于深度卷积网络给出了垃圾图像分类识别模型,基于该模型研发了安卓端的垃圾分
采用变分法或偏微分方程法开展图像处理是计算机视觉领域的主要研究方向之一。该类方法首先根据问题的定义建立能量泛函,然后通过变分法得到泛函最小化的偏微分方程。能量泛函通常包括规则项和数据保真项两部分。变分规则项能够刻化图像特征,包括图像的纹理、形状、颜色和空间关系特征等。而数据保真项具有平滑和边缘保持的功能,合理的自适应数据保真项设计能够处理图像复原的各类问题。基于变分理论框架,本文聚焦于变分图像质量
太赫兹技术是一种非常重要的技术手段,当今科学技术的各个领域,如雷达、通信等都与其紧密相关。激光器作为实现太赫兹技术工程的重要手段之一,其设计中常采用衍射光栅结构:用作激光器的输出镜,以产生特殊偏振特性的光束。在衍射光栅的设计过程中,需要对其衍射特性进行全方位的理论分析与研究。常见的方法均基于数值计算,而大部分的数值计算方法一般只对于计算单一周期或者少量周期的光栅有效,对于具有大量周期光栅结构的计算
颅面修复与复原技术在刑侦领域、考古领域和医学领域均存在较大的研究价值和意义。本论文基于曲线回归模型实现对颅面修复与复原问题的研究,主要的创新与研究工作如下:1.提出基于径向曲线与最小二乘支持向量回归的颅骨修复;将颅骨上提取的径向曲线作为训练样本数据,构建颅骨径向曲线的回归模型,通过回归模型获得待修复径向曲线和已有径向曲线间的关系,修复缺失部分的径向曲线,再根据颅骨统计模型复原出缺失颅骨的完整模型。