基于Weka平台的决策树算法研究与实现

被引量 : 0次 | 上传用户:scholar165
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类社会和计算机信息技术的飞速发展,海量数据的积累使得人们不得不从完善数据挖掘技术来揭示出隐含的有潜在价值的未知的信息数据挖掘不仅集合了数据库人工智能和机器学习等技术,而且还广泛应用于金融商业医疗和保险等行业而决策树分类方法无疑是众多数据挖掘方法中最为常用且经典的方法之一自1966年由Hunt等人提出最早的决策树算法CLS以来,决策树分类方法已经不下几十种,其中以ID3C4.5CART等算法最为经典,它们都具有计算量小生成的规则易于理解等特点,因此应用也最为广泛但同时,在实际的应用过程当中,上述算法也存在着不足,例如效率偏低不适用于噪声数据等,因此,提高算法计算效率等已是现在人们研究的重要问题本文以决策树分类算法为例,在深入研究经典的数据挖掘分类方法的基础之上,做了以下工作:ξ1ο深入学习了开源数据挖掘项目Weka,并在此基础上对Weka平台的算法实现进行了实践;ξ2ο采用C4.5CART BFTree以及NBTree等算法在Weka平台上对数据进行挖掘处理,并通过实验结果分析对以上四种算法在Weka上的性能进行评价;ξ3ο最后对传统的C4.5算法进行了改进,并且对改进前后的两种算法通过实验进行了对比分析使得其计算复杂度大幅度降低,节省了系统开销,提高了算法的效率
其他文献
[目的]考察医学人文教师对医学人文教学目标、课程设置、教学改革等问题的认知,为医学人文教学改革提供建议。[方法]用自行设计的医学人文教育问卷对医学人文教师进行调查,运
互联网作为二十世纪的重大发明,从产生到发展,短短十几年已经席卷全球,影响了人类生活的各个方面,并且对传统的法律体制甚至法律思维方式产生了深远的影响。互联网,顾名思义,就是网
针对配电网线损计算问题,提出一种基于量测数据的新型计算方法,即运用负荷的实测数据,通过回代对每个配电线路的损失进行精确计算,并通过算例仿真验证所提线损计算方法的可行
本文对老年人生活质量的研究现状、存在问题及发展趋势作了评述
中国的城市化处在快速推进过程中,在这一过程中取得了很大的成就,同时也暴露出了诸多问题,城市环境保护规划问题尤为突出。城市环境保护规划作为调控城市发展节奏、减少城市污染
目的:本研究旨在探索淋巴结检出数和淋巴结转移度与Ⅱ、Ⅲ期结直肠癌患者预后的相关性研究,从而为结直肠癌患者更加合理的临床分期及治疗提供依据。方法:回顾性收集并分析辽宁省
志愿服务是指人们自愿贡献自己的时间、精力、技术,不为谋取报酬而进行的社会帮助,是促进社会和谐,调节社会矛盾的有效途径。志愿服务在我国开展以来,伴随我国发展的特点,大
<正>随着农村剩余劳动力向非农业和城市转移,大量农民涌入城市打工就业,形成一个新的需要关注的弱势群体——留守儿童。由此,留守儿童能否健康成长、留守儿童如何健康成长等
医疗行业协会的兴起有利于形成复合式的监管模式。其监管优势有如下表现,即:加强行业自律;建立政府、医院、患者之间的沟通协调机制;开展学术研究与交流;提高应急管理能力。
虚拟仪器技术是未来仪器发展的一个重要方向,它将测量控制与仪器仪表技术和计算机技术结合在一起,充分利用了计算机强大的数据处理、计算能力,在数据采集领域得到了广泛的应用。