论文部分内容阅读
随着互联网的迅猛成长和人们活动方式的改变及人口老龄化问题等,2型糖尿病的发病率在世界范围内依年提高,特别是在发展中国家增加速度更快,具有流行势态。在全球范围内糖尿病已然变成在心血管病和肿瘤之后,对人们身体健康和生命安全造成危害的重大非传染性疾病。因此,预防2型糖尿病的发生,对于控制糖尿病的人数具有举足轻重的意义。而决策树作为从大规模数据中探索概念构成的代表,是弱化模型结构仅从数据出发构建概念的典型,于是决策树成为数据挖掘的典型技术得到了广泛的应用。所以本文将利用数据挖掘ID3算法、C4.5和CART的算法构建决策树模型,以此挖掘糖尿病的患病因素,为人们预防和医院的临床工作提供理论依据。本文通过对C4.5决策树算法、ID3算法和分类回归树(CART)算法研究相比较,分析对比每个单一算法的性能和挖掘我们收集到的糖尿病数据。本文针对课题设计了相应的研究算法,我们主要的资料数据来源于坐落在河北省秦皇岛市某医院糖尿病患者以及健康人体的体检报告共1922例,我们将整体样本集合的17项指标作为本次研究的主体,把收集到的数据集合导入到R语言的数据库中,建立相应的数据源。然后,用3种经典的决策树算法对训练样本集建立不同的模型,最后使用测试集对决策树训练出来的模型进行验证和评价[1]。本文的内容分为五章,详细安排如下:第一章:简单介绍本文的研究背景,研究意义和决策树方法与糖尿病治疗方法在国内外研究现状,以及本文的算法和研究方法和文章的主要内容。第二章:详尽的说明了ID3算法的基本概念、算法描述、数据挖掘的过程。第三章:详细介绍了CART的基本概念和变量与最佳切割点的选择和缺失值的处理。第四章;介绍了C4.5的算法原理,实例应用和模型验证结果。第五章结果评价,三种决策树模型应用于本文的资料数据后的计算结果,得到训练集和测试集的数据,比较三种模型的准确率得出结论并进行分析。