决策树优化算法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:zhanghui1860
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树是一种有效的数据挖掘方法,进一步改进决策树,提高决策树的性能,使其更加适合数据挖掘技术的发展要求,具有重要的理论和实践意义。本文对决策树算法中涉及的样本筛选方法和测试属性选择标准进行了深入研究,主要包括以下几个方面的内容:通过分析基于重复剪辑近邻法筛选样本的原理,提出了引入拒绝阀值的重复剪辑近邻法。与重复剪辑近邻法相比,该方法通过引入拒绝阀值来减小样本被误剔除的可能性,进而减小决策树的判决风险和误判概率。通过仿真实验比较这两种方法发现,引入拒绝阀值的重复剪辑近邻法在降低判决风险和误判概率上要优于重复剪辑近邻法;而在决策树的规模和分类错误率上,重复剪辑近邻法的精度要优于引入拒绝阀值的重复剪辑近邻法。同时,用这两种方法对样本集进行筛选,都能在不损害分类准确率的同时减小决策树的规模。提出了一种基于修正系数的测试属性选择标准。该方法利用修正系数降低信息增益大且取值个数多的属性的信息增益,与信息增益和引入用户兴趣度的测试属性选择标准相比,此方法既克服了ID3算法存在的多值偏向问题,又克服了采用用户兴趣度产生的对多值属性重要性的主观评测等问题。同时保持了决策树算法不要求用户掌握应用领域的知识,完全通过样本集自动构建分类器对未知数据进行分类的优点。提出了一种组合优化决策树算法。该算法从样本筛选和测试属性选择标准方面进行了改进,对决策树建立过程中易受噪声影响和易产生多值偏向问题的主要环节进行了优化。仿真实验表明了该算法在减小决策树规模的同时提高了分类准确率。
其他文献
随着对Web服务的不断深入研究和应用,出于各种服务自动化任务的需要,Web服务计算逐渐成为学术界的研究热点,并且在服务研究各方面取得了许多显著的成果。但是由于目前Web上广
计算机和网络技术的迅速发展,加快了教育现代化进程的发展步伐,促进了教学方法、教学过程和管理手段的变革。本课题是以研究并利用现有的Web技术对Struts框架和Hibernate框架
在虚拟现实、机器人领域以及数字文化遗产等方面应用中,室内三维模型是不可或缺的数据来源。但是,由于室内环境具有近距离、易遮挡、光照复杂、缺乏绝对定位等特点,所获取的室内
在现代服务业的多数服务业态中,为了完成一个业务目标,往往需要集成多个单项服务,提供组合服务。北京邮电大学作为牵头单位与五家单位共同承担了国家科技支撑计划重大项目《
我国正在全面建设和谐社会,要求社会和谐稳定健康发展,因此对各类公众场所的安全系数和安全保障越来越高。为了让公众享受一个安全和谐的环境,并让公共场所有一个和谐的安防
虚拟化技术,自1959年由Christopher Strachey于巴黎举行的国际信息处理大会上所做的《Time sharing in large, fast computers》报告中首次提出,到现在已经取得了突飞猛进的
随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,我们需要对网络中繁杂的信息进行合理的组织与分类。而文本分类作为信息过滤、搜索引擎、文本数据
学位
AdHoc网络是指由一组带有无线通信收发装置的移动节点组成的一个多跳、自组织、无中心网络,它作为一种新型多跳自组网络逐渐成为研究的热点。由于AdHoc网络中的节点能任意快速