决策树模型在2型糖尿病诊断中的应用

来源 :沈阳师范大学 | 被引量 : 2次 | 上传用户:linjavac
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛成长和人们活动方式的改变及人口老龄化问题等,2型糖尿病的发病率在世界范围内依年提高,特别是在发展中国家增加速度更快,具有流行势态。在全球范围内糖尿病已然变成在心血管病和肿瘤之后,对人们身体健康和生命安全造成危害的重大非传染性疾病。因此,预防2型糖尿病的发生,对于控制糖尿病的人数具有举足轻重的意义。而决策树作为从大规模数据中探索概念构成的代表,是弱化模型结构仅从数据出发构建概念的典型,于是决策树成为数据挖掘的典型技术得到了广泛的应用。所以本文将利用数据挖掘ID3算法、C4.5和CART的算法构建决策树模型,以此挖掘糖尿病的患病因素,为人们预防和医院的临床工作提供理论依据。本文通过对C4.5决策树算法、ID3算法和分类回归树(CART)算法研究相比较,分析对比每个单一算法的性能和挖掘我们收集到的糖尿病数据。本文针对课题设计了相应的研究算法,我们主要的资料数据来源于坐落在河北省秦皇岛市某医院糖尿病患者以及健康人体的体检报告共1922例,我们将整体样本集合的17项指标作为本次研究的主体,把收集到的数据集合导入到R语言的数据库中,建立相应的数据源。然后,用3种经典的决策树算法对训练样本集建立不同的模型,最后使用测试集对决策树训练出来的模型进行验证和评价[1]。本文的内容分为五章,详细安排如下:第一章:简单介绍本文的研究背景,研究意义和决策树方法与糖尿病治疗方法在国内外研究现状,以及本文的算法和研究方法和文章的主要内容。第二章:详尽的说明了ID3算法的基本概念、算法描述、数据挖掘的过程。第三章:详细介绍了CART的基本概念和变量与最佳切割点的选择和缺失值的处理。第四章;介绍了C4.5的算法原理,实例应用和模型验证结果。第五章结果评价,三种决策树模型应用于本文的资料数据后的计算结果,得到训练集和测试集的数据,比较三种模型的准确率得出结论并进行分析。
其他文献
采用丁异戊橡胶作为主体材料,从补强体系、硫化体系和增塑剂三个方面分析了它们对橡胶高低温性能、耐老化性能和耐压性能的影响.粒径小、结构度高的炭黑和气相白炭黑并用可有
二十世纪90年代以来,作为一种产业组织形式的企业集群研究再度兴起.本文从企业集群创新优势理论发展出发,初步构建了我国中小企业集群成长的宏观、中观与微观三维度构架,着重
卡套式管接头使用压力可达320×10~2Pa(320巴),不用密封件,工作可靠,拆装方便,特别是避免了焊接管接头的缺点。但国产卡套式管接头的漏油问题,一直未得到很好解决,特别是直
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
本文遵循法历史学和法哲学的路径,运用概念分析的方法,对理性进行了考究和阐释。由此,结合作者对环境法的体悟,得出了结论——现代性视野下,环境法的理性为"中庸理性"。并以
被人们普遍接受的信息非对称论其实并不能解释股市失灵的内在原因.本文提出,股市失灵的深层原因是股票价格的决定具有内在主观性,股价决定的主观性使股市永远不可能达到完全
总体说来,人才问题包括人才开发与人才管理两个方面,前者侧重于发现未知的人才、创造新的人才,后者侧重于充分利用和维护好已知(现有)人才.自从国家实施西部大开发战略以来,
采用单因子试验设计方法,研究了饲料中添加维生素C(Vc)对点带石斑鱼生长及组织抗氧化性能的影响。设计Vc含量为5个不同梯度(0、70、210、630、2000mg/kg)的等氮、等能饲料,进行为