基于决策树的数据挖掘算法优化研究

被引量 : 0次 | 上传用户:liuzhuoran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是利用分析工具从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中、事先未知、但又潜在有用的信息和知识的过程,建立数据间关系模型,并用其做出预测。决策树模型是数据挖掘中最常用的一种方法。它能够直接体现数据的特点,便于理解,具有较好的分类预测能力,并能方便提取决策规则。 决策树的生成过程也就是知识发现的过程,决策树模型的复杂度和预测精度决定了决策树的好坏。决策树是根据启发规则生成的,常见的决策树生成算法有基于信息论的ID3、C4.5算法以及基于最小GINI指标的CART、SLIQ、PUBLIC方法。最优决策树的生成作为一类NP问题,目前又引入了一些新的技术和方法作为启发规则如:遗传算法、相关分析等,并对现有启发规则的计算做了一定的简化,同时对决策规则的完备性也进行了初步探讨。 为了从大量的属性中找出决策规则,论文首先引入粗糙集理论,对测试属性进行约简,找出真正影响决策的属性,减小决策树的规模。并根据相似性原理,以测试属性和决策属性的相似度作为启发规则构建决策树。并在高校教师综合考评系统中采用了这种新算法,实验结果表明这种新的决策树生成算法较ID3算法的预测精度更高,计算更加简便。论文最后较为详细的介绍了教师综合评价决策树的具体实现过程。
其他文献
为了使园林能真正成为满足各种类型游人需要的全民性园林,推进无障碍环境建设,初步建立了9项一级要素、60项二级要素的园林无障碍环境要素体系,并通过对北京市内5个不同类型
围绕“南水北调”的宏略及北京城市新水系布局,提出当前要从城市规划发展到生态环境阶段的综合性城市建设中寻觅发展园林建设的契机,继承和发扬“引水贯都”的传统,形成贯穿和围
目的:为充实临床保守治疗腰椎间盘突出症的内容,根据腰椎间盘突出症疼痛发生的三种最为公认的原因(神经根受压迫说、神经根炎症说、自身免疫说),拟定了一种以推拿、牵引为主,配
审计收费与审计质量以及注册会计师的独立性密切相关,研究对审计收费有显著影响的重要因素具有一定的理论意义和现实意义。国外有关这一领域的研究已经延续了二十多年,然而国
<正>腰椎间盘突出症是一种常见多发病,该病疼痛性较重,病程较长,它会引起腰部疼痛、下肢麻木、发凉,甚至瘫痪、大小便失禁等,严重影响人们的生活质量。因此,在日常生活中学会
本文的研究任务是对信誉进行经济理论分析。论文以马克思辩证唯物主义和历史唯物主义方法为指导,在充分界定信誉概念的基础上,对信誉的产生历史、制度基础、经济作用、外部环
<正>为了解国内临床医生对痛风相关知识的掌握情况,采用修订的Zhang等痛风相关知识的调查问卷对4家医院痛风患者最常就诊科室的185位医生进行现场问卷调查。10道痛风问题回答
会议
概述边界网关协议BGP的各种属性,介绍这些属性在各种不同环境下的不同表现行为,以及如何通过对其进行操作实现自治系统间的不同路由策略和BGP路由决定的基本过程.
立法作为一种具有强制力和普遍性的社会规范产生于利益的冲突与调适之中,其基本功能在于实现多元利益冲突的权威性选择。在现代社会中,随着社会利益结构的变迁,多元利益共生
中国的英语教学长期以来存在着“费时低效”的现象(戴炜栋,2001)。如何提高英语教学效率,改变“费时低效”的被动局面,这是许多教师和语言教育研究者长期思考的问题。 本