基于决策树分类算法的噪声容错性研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:huitianfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分类是一种重要的数据挖掘技术,常用的数据分类方法有决策树归纳分类、贝叶斯分类、神经网络分类和K最邻近分类等,采用的理论及算法有决策树(Decision Tree)、粗糙集(Rough set)、人工神经网络(Artificial Neural Network)、遗传算法(Genetic Algorithms)等。   ID3算法以信息熵作为属性选择的标准,是经典的决策树算法,但该算法没有考虑噪声数据的影响,使得算法的抗噪声能力比较差。针对上述的不足,本文分别结合粗糙集理论、人工神经网络对ID3算法作了改进研究,主要内容包括:   首先,对决策树、可变精度粗糙集理论进行了系统的研究,分析了变精度粗糙集中分类质量与分类正确率的关系。考虑到可变精度粗糙集理论在处理噪声数据方面具有较强的抑制能力,以及实际应用中常关心的分类质量问题,提出了基于分类质量的变精度ID3算法。   与此同时,结合粗糙集理论中属性约简算法可以在不影响分类能力的前提下对数据集进行简化的特性,本文还提出了变精度的属性约简算法。   其次,考虑到神经网络具有鲁棒性、自适应性和高度容错性等特点,并且在利用粗糙集理论知识构建决策树算法的属性选择标准启发下,提出了基于样条权函数神经网络的决策树生成算法。   随后,分别对基于分类质量的变精度ID3算法及基于样条权函数神经网络的决策树算法构建了分类器,用UCI数据库中的多个数据集作为测试数据进行了实验,实验结果表明改进后的决策树生成算法在抑制噪声方面要优于改进前的ID3算法,其实用性更好。   最后,本文提出将决策树分类思想应用到城市道路建设中去,为城市现有道路的养护及新道路的规划起到辅助参考作用。  
其他文献
Web系统使用广泛,如何进行有效的测试保证Web系统的可靠性至关重要。但是由于Web应用程序多采用分布式结构,各类实体间的藕合度小,Web及其脚本语言的发展,使其结构与行为特征越来
作为现代通信、介质存储、数据发行、多媒体计算机等技术的关键环节,图像压缩编码始终是信息处理技术研究中最为活跃的领域之一。为了有效的存储、处理和传输大量的数据,从而
随着光通信技术的快速发展特别是密集波分复用技术的发展,单根光纤的传输能力已经达到了Tbps数量级。同时,音、视频等对网络服务质量要求较高的多媒体应用在网络中的比列也在
近年来有关图像中的特征识别技术已经日趋成熟,并且被广泛应用于图像检索、图像识别、物体跟踪等领域;而视频中的特征识别研究则刚刚起步,有关视频检索、视频解析、动作识别
当前,无论是整个社会的发展还是电子十所自身的改革与发展,都对该所人事和工资管理提出了更高、更新的要求。建立以信息技术支持的现代人事和工资管理系统,是建设好电子十所
针对MEMS设计与加工脱节的问题,本文对MEMS工艺验证进行了研究,旨在使MEMS设计者在在进行工艺仿真以及MEMS器件加工之前,先对版图和工序进行可加工性验证,如果版图或工序是不可加
“众包”的工作方式由来已久,并且日益盛行。通过“众包”的方式,雇主可以从人群中购买服务,整合人力来完成一个复杂的工作。近些年来,“众包”方式被广泛应用于互联网中,“
5.12汶川大地震,给我国的人民、经济、交通等带来了无法估计的损失。灾区多数的建筑物、公共设施、道路等已经完全毁掉,原来地图上的一些表征已经不足以表达目前的实际情况,
随着计算机计算能力的迅速增长,网格计算已经成为分布式计算的重要研究内容。目前,以网格为基础架构的e-Science协同环境下已经集成了大量的计算资源和数据资源,这些资源大多
近年来,P2P技术随互联网技术的发展而兴起,成为网络技术研究的热点。而基于P2P网络构建的存储系统,相比传统存储系统具有如下优势:不依赖中心节点、高容错、高扩展、高效率、低成