改进代价敏感的决策树学习方法研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:duyuh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从广义上讲,机器学习(Machine Learning)是以使其包括任何计算机程序通过经验来提高其任务处理性能的行为。如果机器能够真正完全地根据经验来自动提高,其影响将是空前的。为此,自从第一台电子计算机ENIAC问世以来,大批学者与专家就在为使其能够自我学习而不懈努力。到目前为止,针对特定学习任务的算法已产生[58][59],关于学习的理论认识已开始形成[60][61],其中,从特殊的训练样例中归纳出一般函数是机器学习的中心问题,而决策树学习则是应用最广的归纳推理算法之一[1][10]。决策树方法在实际中有着广泛的应用,如根据疾病分类患者[58];根据起因分类设备故障;根据拖欠支付的可能性分类贷款申请。这类问题的核心任务都是把样例分入各个可能的对应的类别中,因此称为分类问题(Classification problem)[1]。经典的分类问题是在假设为各种分类错误所要付出的代价相同的情况下,要求达到高的分类正确率。然而这种假设在实际应用中很难满足,如根据疾病分类患者问题中,将病人判断为健康者与将健康者判断为病人,这两种错误的诊断所要付出的代价一定是不相同的。针对此类问题,专家们提出了代价敏感的学习方法(Cost-sensitive Learning,CSL)。由于其在现实中广泛的应用,近年来一直是机器学习领域中的一个研究热点[20][51]。本文首先介绍了机器学习的主要研究领域,并分析了目前国内外关于代价敏感学习的理论与方法,指出现有的代价敏感学习方法的优点与不足。针对存在的问题与不足,提出了一些新方法,并通过实验证明本文所提出的方法的可行性与有效性。本文的主要内容如下(其中部分工作于参考文献[56][57][62]中发表):(1)简述决策树(Decision Tree)方法以及代价敏感学习(CSL)现有的方法,分析其优缺点。同时也介绍了与代价敏感学习密切相关的代价约束(Budget Learning)及主动学习(Active Learning)的概念和基本方法。(2)提出代价约束下的代价敏感学习的新方法。本论文改变了前人将代价敏感学习中各种代价(如获得每个实例的属性值的代价和发生错误判断时所要付出的代价)用同一代价尺度来衡量的习惯做法[20][47],取而代之用不同的代价尺度来衡量不同的代价。另外,在前人的部分
其他文献
计算机网络病毒大规模爆发时所带来的巨大网络流量对网络的正常运行构成了严重威胁,而且网络病毒同黑客攻击相结合将会导致更加严重的危害。现有的计算机病毒防治技术主要关注
近年来,随着便携式计算机和掌上型电脑的日益普及,以及无线通信技术的迅速发展,对“无论何时,无论何地”的个人通信提出了迫切的需求。新的网络环境和新的应用需求引起了对可及时
遥感图像分类是遥感图像处理研究领域中的一项主要内容,分类的精度直接影响遥感数据的应用水平和实用价值。如何解决多类别地物的识别并满足一定的精度,是遥感图像研究中的一个
半导体存储器是众多芯片家族之中的重要一支。现在数字设计的硅片中,近80%面积用于存储芯片。在今天高性能微处理器中一半以上的晶体管用于高速缓存(cache),并且预期这一比例
二十世纪九十年代以来,随着运动捕获技术的广泛应用,运动捕获数据可以直接得到,导致大规模运动数据库的不断建立,需要一种有效的运动捕获数据关键帧提取及检索技术对运动数据
随着计算机和网络技术的不断发展,Internet已经成为人们生产和生活中的不可缺少的组成部分。社会的各个领域都在努力利用现有技术建立网络化的应用体系,进而实现信息交互和资
随着信息技术的不断突破和快速发展,现代社会产生的各种信息数据呈指数级增长。在大数据时代来临之际,人们对存储系统的要求也越来越高,希望系统能够提供高性能、低能耗、高可靠
人眼是人获取外界信息的主要渠道,研究如何利用人眼获取视觉信息进行研究具有重要意义。当前,人们主要使用眼动跟踪技术对其进行研究,眼动跟踪技术应用广泛,其在医学、心理学
无线通信技术和计算机网络技术的发展为移动自组网络的产生奠定了基础。由于具有不需要集中式的网络管理和基础设施的显著特点,移动自组网络,即无线Ad Hoc网络,在近年来受到越来
图形处理器(GPU:Graphics Processing Unit)传统上是作为一种外设用来加速3D图形渲染,但随着其功能和性能的逐步加强,如今它已经成为一种流行的通用计算设备。随着CPU单核心性能的