论文部分内容阅读
随着人类社会和计算机信息技术的飞速发展,海量数据的积累使得人们不得不从完善数据挖掘技术来揭示出隐含的有潜在价值的未知的信息数据挖掘不仅集合了数据库人工智能和机器学习等技术,而且还广泛应用于金融商业医疗和保险等行业而决策树分类方法无疑是众多数据挖掘方法中最为常用且经典的方法之一自1966年由Hunt等人提出最早的决策树算法CLS以来,决策树分类方法已经不下几十种,其中以ID3C4.5CART等算法最为经典,它们都具有计算量小生成的规则易于理解等特点,因此应用也最为广泛但同时,在实际的应用过程当中,上述算法也存在着不足,例如效率偏低不适用于噪声数据等,因此,提高算法计算效率等已是现在人们研究的重要问题本文以决策树分类算法为例,在深入研究经典的数据挖掘分类方法的基础之上,做了以下工作:ξ1ο深入学习了开源数据挖掘项目Weka,并在此基础上对Weka平台的算法实现进行了实践;ξ2ο采用C4.5CART BFTree以及NBTree等算法在Weka平台上对数据进行挖掘处理,并通过实验结果分析对以上四种算法在Weka上的性能进行评价;ξ3ο最后对传统的C4.5算法进行了改进,并且对改进前后的两种算法通过实验进行了对比分析使得其计算复杂度大幅度降低,节省了系统开销,提高了算法的效率