基于机器学习的糖尿病预测模型

来源 :天津大学 | 被引量 : 0次 | 上传用户:rrsmy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
糖尿病是一种由自身缺陷引起的常见的慢性疾病,如果患者没有得到及时的治疗,会引发多种并发症。目前,我国糖尿病防治呈现出“三低”态势,即低知情率、低治疗率和低治愈率。对糖尿病及其相关内容进行深入的研究,有助于提高知情率、治疗率,也有助于相关药物的研发。
  随着机器学习的不断完善,智慧医疗已经成为一个研究热点。本文主要对体检数据以及糖尿病蛋白标志物进行研究:在本文的第三章中,使用机器学习对两组体检数据进行学习,并对重要特征进行选择,致力于构建一个高效的糖尿病诊断模型;在本文的第四章中,使用集成方法对糖尿病蛋白标志物进行研究,包括集成的特征提取方法和集成的分类器方法。本文的主要工作及创新点如下。
  (1)建立基于体检数据的糖尿病预测模型。第三章主要对泸州市体检数据集和比马印第安人数据集进行研究,使用随机森林、神经网络以及决策树建立预测模型,并根据主成分分析、最大相关最小冗余方法对特征进行选择。在第三章中,根据重要的诊断指标和随机森林进行建模,可以得到一个高效的糖尿病预测模型,该模型正确率较高且运行时间较短,具有较高的推广价值。
  (2)建立糖尿病蛋白标志物识别模型。本文第四章侧重于对蛋白质进行研究,本章使用集成方法研究蛋白质分类问题,并最终取得了较好的效果。对糖尿病蛋白标志物进行全面研究,有利于深入了解糖尿病、有利于研发治疗药物。在第四章中,使用了三种基于氨基酸的特征提取方法和六种传统分类器,通过集成处理后,可以得到四种集成的特征提取方法和两个集成分类器。根据实验结果可知,集成方法的性能优于单一方法。
其他文献
直接甲醇燃料电池(DMFC)被认为是21世纪最有潜力的电动汽车动力源。作者对电动车用DMFC阳极流道内的甲醇.水溶液、CO气体两相流动,DMFC电池堆的热管理进行了深入的探讨,并参与设计、组装、运行了一个DMFC性能测试系统实验台。本文将DMFC阳极流道中伴随有流道.扩散层界面上的气液质量迁移过程的两相流动与传统加热管中的流动沸腾现象进行了类比,利用“拟沸腾.”的概念,建立了DMFC阳极两相流的物
该论文作为国际空间合作项目"双星计划"中的一个预研项目,主要是对卫星处理系统中的数据接收部分进行研究,研制出能够满足卫星高速数据下传要求的数据采集和存储系统,使应用于空间环境中的卫星能够实时高速地下传数据和图像,以适应日益增大的数据量需求.该论文以PCI总线技术为基础,研究了基于PCI总线的高速数据采集及存储系统的原理、组成以及在Windows 2000环境下进行数据采集和存储的方法.整个设计工作
学位
PCI
近年来随着MEMS惯性传感器的出现,使MEMS双轴旋转调制惯导系统成为热门研究内容。本文研究了MEMS双轴旋转调制惯导系统对准及系统算法的设计,并将算法移植到导航计算机中。  首先,对惯性导航系统更新算法进行了深入研究。根据MEMS惯性测量单元输出的角速率和比力信息,提出了基于角速率插值的等效旋转矢量法、基于角速率和比力插值的划桨效应补偿算法两种新的算法,通过仿真验证表明基于角速率插值的等效旋转矢
我国是世界上最大的蔬菜种植国家,蔬菜种植业逐渐成为农民脱贫致富的途径之一。在蔬菜种植过程中病虫害种类繁多,发生规律复杂,广大菜农多依靠主观判断进行病虫害防治,误判率高导致病虫害不能够及时准确的防治,直接影响蔬菜品质和产量,造成巨大的经济损失。随着农业科技的快速发展,要求温室大棚为蔬菜生长提供更加科学的生长环境,根据不同蔬菜不同生长阶段所需养分进行智能施肥。基于以上问题本文研究设计了一种基于图像识别
学位
为了方便寻找遗失的学生“一卡通”,我们构建了一个用于查找和丢失学生校园“一卡通”的平台。该项目需要从用手机相机拍摄的图片中检测文本和图像,提取信息并将其与机构的数据库信息进行匹配。在这种情况下,识别文字和图片将是核心工作。捕获图片后,将对其进行预处理,特征提取以及最终的字符识别。对于此项目,光学字符识别(OCR)用于检测卡上的信息。OCR在各种有限的问题领域中识别效果很好,但是,在设计高精度的OC
互联网和社交媒体的急剧增长促进了复杂网络相关研究的快速发展,近年来一种有效的网络分析方法:网络表示学习受到了广泛的关注,网络表示学习旨在学习节点的低维稠密向量表示,然而传统的网络表示学习方法不能直接应用到符号网络中,目前专门针对符号网络提出的表示学习方法也仅仅考虑了符号网络的结构平衡理论,但是对于在现实世界中广泛存在的有向符号网络而言,Status理论往往比结构平衡理论更加适合。因此本文利用了St
学位
在不可信中继网络中,中继节点被看做是?个具有较低可信度的节点,数据在传输时需要对其保密,而从信息论?度出发的物理层安全则可以有效的做到在保证协作的同时对中继节点保密。本?主要研究了不可信中继?络下的物理层安全,提出了两种不可信中继?络的中继转发策略,其中包括:容错解码转发(decode-and-forward relay networks allowing intra-link errors,DF
在社会心理学研究中,自我报告评估和内隐联想测验分别被用于测量群体的外显态度和内隐态度,但是这两种方法都需要被试人员地主动配合,并且只能进行小规模的群体态度测量。在社会媒体中用户所发表的言论可以反映用户的态度,但是当前的文本态度分析方法并没有对群体的外显态度和内隐态度进行区分。  受到社会心理学态度测量方法的启发,本文旨在研究一种自动化方法用于测量和区分大规模群体的外显态度和内隐态度,而不再局限于小
机器学习的火热发展和计算机科技的进步,使得机器学习算法在计算机视觉领域取得了重大的进步。距离度量学习作为经典的机器学习方法在人脸识别、物体分类、材料分类等众多计算机视觉领域有着广泛的应用。同时,随着信息获取技术的飞速发展,数据的收集能力和表达形式变得越来越多样化。数据的爆炸式增长推动了机器学习算法的进步,大规模精确标注的数据在很大程度上提高了各种机器学习算法和模型的上限,但同时也增加了数据标注的难
随着网络技术的演进与发展,无论是卫星通信系统还是地面网络都面临着资源量有限、用户业务需求量增多、需求种类多样化的问题。如何快速高效地解决调度、分配与部署资源显得尤为重要。良好的调度方案能够最大程度地利用资源来满足用户需求,经济高效地达到目标。  针对资源调度问题,多卫星测控资源调度是目前卫星网络面临的主要问题之一。测控资源调度问题是指测控任务是否能在可见时间窗口内被测控设备所调度,最终实现测控需求