五种决策树算法的比较研究

被引量 : 0次 | 上传用户:b188413920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树分类算法是数据挖掘领域中最为广泛研究和应用的一个课题,其优点是计算量小、速度快、分类准确率高、分类规则容易理解。目前经典的决策树算法有ID3、CART、C4.5、SLIQ等。为了解决连续属性以及数据中存在的不确定性等问题,模糊决策树应运而生。不同算法产生的决策树,在测试数据上的准确率、树的繁简程度等方面都有所不同。本文针对五种决策树算法,从分类的准确率、树的复杂程度(即生成树的叶子节点个数)、模糊决策树对连续属性的模糊化方法、分裂属性的选择方法以及决策树对样本空间划分的相似程度五个方面,在十七个UCI数据集上进行了详细的实验比较。对分类准确率的比较,我们应用了统计比较方法——Friedman测试方法。在对决策树的评价中,分类规则集的稳定性往往被忽略,即在多次实验中,我们得到的分类规则集对样本空间的划分是否相似及其相似程度如何,这样的问题往往不被重视。因此,本文提出了一种衡量决策树对样本空间划分的相似程度的评价方法,其主要目的是衡量某种决策树自身分类能力的稳定性和不同决策树分类能力的相似性。通过新视角去观测不同方法的异同,为我们“相信”分类结果、评价分类结果的稳定性以及解决不同问题选择不同算法提供了一个有意义的探索。本文将C4.5、CART、Fuzzy ID3、FS-DT和Yuan’s FDT五种决策树算法应用于UCI数据库的十七组数据集。实验结果表明,在统计意义下Fuzzy ID3的分类结果好于FS-DT,而CART的分类规则是最少的。在几组稳定性实验中,本文所定义的相似性概念给出了准确、合理的相似性值。通过比较发现,分类器的相似性往往依赖于分类器本身的特性及其所应用的数据集,分布混乱的数据更容易导致较低的相似性,这种规律在多个分类器上都有体现。
其他文献
以朱军提出的混合模型方法。采用亲本、F1、F2 3个世代,分析大豆异黄酮含量的胚效应、细胞质效应和母体效应。结果表明,大豆种子中异黄酮含量同时受到胚遗传效应和母体遗传效应
伴随着2008年金融危机的爆发,个人理财业务受到越来越多人的关注。本文通过对个人理财业务的现状及其存在问题的分析,探讨解决我国个人理财业务现存问题的对策。
品牌不仅是酒店的核心竞争力,还是酒店重要的无形资产,关系到酒店的可持续发展能力。酒店品牌有其他企业品牌的相似性,也有自身的特殊性。文章对知名酒店的成功品牌发展分析,
数码照相改变了传统照相的概念和工艺方法。本文依据数码照相的原理及其特点 ,从四个方面 ,分析了数码照相技术在刑事照相技术中的应用情况。同时 ,提出了在刑事照相技术中应
随着经济全球化趋势的不断深化,跨国并购已成为中国企业迅速国际化的一条捷径。然而,跨国并购的绩效并不乐观,缺乏有效的文化整合是跨国并购失败的一个重要原因。因此,本文在
商事仲裁制度是一种争议解决机制,为当事人在法院外解决纠纷提供了一种选择。一般来讲,商事仲裁可以分为临时仲裁(Ad hoc Arbitration)和机构仲裁(Institutional Arbitration
党的十九大报告将创新和教育作为未来全面建成社会主义现代化国家新征程的重要和关键组成部分,这充分体现了党和国家对实施创新驱动发展战略和实施人才强国战略的高度重视。
随着航空航天产品性能指标的不断提高,钛合金零部件的大型化趋势日益明显。钛合金零部件的尺寸很多时候超过了原材料厂家所能提供板材的最大宽度。将原始钛合金板料进行拼焊,
劳思光作为港台的一位学术大家,他在其文化哲学系统里构建了双重文化观,即早年运用黑格尔文化理论模型,以黑格尔遵循的“文化精神”为中心,将自觉文化活动视为精神之“外在化
学校教学工作的主要形式是课堂教学,改革课堂教学,提高教学质量,对课堂教学进行科学的评价,是我们最为关注的课题。新课标实施以后,评价状况有所改观,提倡开放的学习方式,采