决策树分类优化算法的研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:hanzedong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘就是从大量的、不完全的、有噪声的数据中,提取出有效的和潜在规律性信息的过程。数据挖掘的任务就是从数据集中发现模式,它融合了数据库、人工智能,、机器学习、统计学等多个领域的理论和知识。在数据挖掘中,分类和预测是被广泛研究的技术,并且已经广泛地应用于许多领域,对未来商业和人们的生活也将产生深远的影响。决策树方法自20世纪60年代以来,在分类、预测、规则提取等领域有着广泛的应用,其中以Quilan于1986年提出的ID3算法最为著名。本文主要研究决策树ID3算法及其改进。本文深入研究了ID3算法的理论基础及构建决策树的过程等知识。Quinlan提出的ID3算法虽然很经典,但也有美中不足之处。第一,算法中使用了对数计算,而且计算过程复杂;第二,取值较多的属性被选择的机率比较大,即多值偏向问题。为了解决ID3的这些问题,本文引入了泰勒公式和麦克劳林公式,对原ID3算法进行化简,不仅属性信息增益的计算步骤减少,而且使信息熵的计算公式本身变得十分简洁;对于ID3算法偏向于选取有较多取值的属性的缺点,用一个与属性取值个数相关的函数对简化后的属性信息增益进行修正。通过以上两个方面的优化,新算法在构建决策树的速度上得到提高,同时也解决了ID3算法多值偏向的不足。然后,使用同一个小数据集对改进前后的算法进行实例分析,分别得到其对应的决策树。最后,用面向对象的JAVA高级语言实现了改进前后的ID3算法,并且在不同规模的数据集上进行仿真实验,把改进后算法分别与ID3算法、C4.5算法进行比较分析,验证了改进后算法在构建决策树时所需的时间及分类准确率两个方面都优于其他两个算法。
其他文献
伴随着经济的发展,水产养殖实现了兴旺发展,所以,对水产养殖的病害控制技术也提出了新的要求,对于水产养殖来说,病害的防控占据着重要的角色。因为水产养殖业的病害具有,传播
<正>通过表现海浪,海洋以及它们在我们生活中所能体现的特殊角色来探索人们在日常生活中对于海洋生态以及海洋科学认知的博物馆是否够有创意呢?这就是由设计师Steven Holl以
调查了云南特色民族资源,从民族文化资源的获取与创建、存储与管理、分配与调度、发布和检索方面提出了数字环境下云南多元民族文化资源的整合模式。
外源基因在大肠杆菌中表达是对基因重组技术的成功应用。外源基因在不同的大肠杆菌表达系统中表达产物可能定位于大肠杆菌空间结构的不同位置 :胞质 ,胞质膜 ,胞周质 ,胞外膜
针对地铁无线网络覆盖中共建共享通信系统多、系统间干扰损耗大、覆盖场景多样性、小区间切换频繁等难点,提出含基站、电源、传输3个模块的地铁无线覆盖网络构架,同时对各种
从"一家之法"诞生的那一天起,它就被注入了神的意志,依靠当时人们的愚昧无知使君主的个人统治具有了合法性,神圣性,不可抗拒性。经过"儒"、"法"两家以及其它维护君主专制的派
1背景天水市属艾滋病低流行地区,男男性接触(MSM)人群活动隐蔽,没有固定的活动场所,通过德尔菲法估计其人数约为2000人左右。我们于2006年开展了天水市MSM人群基线调查工作。结果
目的探讨肠内营养在ICU重症胰腺炎治疗中的应用价值。方法选择2012年1月~2017年1月我院ICU病房收治的40例重症胰腺炎患者临床资料进行统计分析,随机分为对照组和实验组各20例
未来5G网络是一个多网络、多频段、多制式的混合网络,相对4G频谱效率将提升5~15倍、能效和成本效率将提升百倍以上。以5G的性能指标要求为基础,研究了达到该指标要求的关键技
“九·一八”事变后 ,西北军旧部积极投身于抗战洪流 ,并在抗战中发挥了重要作用。西北军旧部之所以积极抗战 ,除了全国人民抗日救亡运动的推动和影响 ,中国共产党的争取、教