增量决策树中样例选择的影响与评价

来源 :河北大学 | 被引量 : 0次 | 上传用户:walker250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库和网络技术的不断发展,使得人们可以越来越容易地获得海量的数据,但由于数据信息自身的复杂性,使如何有效地处理和理解这些数据成为需要解决的难题,而机器学习方法可以帮助我们认识和理解这些数据里隐含的知识,同时还可以帮助和指导生产实践。此时,首先要面临的问题就是数据的动态增长,其次是数据的数量巨大,二者都可以通过机器学习中的增量学习和主动学习来解决。前者可以适应数据不断增长的学习环境,在保持原有学习结果的基础之上接收新的数据,通过调整更新分类器来获取新的知识,而后者可以主动选择样例,从而降低数据的数量和复杂度,节约学习的成本,降低构造分类器的代价。本文研究了基于增量决策树的主动学习方法,其实就是将增量学习和主动学习两种方法进行有效地结合,从而同时发挥二者的优势。增量决策树是一种有效的增量学习方法,它可以在尽量最小破坏原有决策树的结构稳定性前提下,通过动态调整算法来更新决策树。在此基础上,进一步研究了决策树结构的变化规律,提出了基于最大不一致判断准则的未标注样例选择算法,从而完成主动学习中重要的一环。同时还介绍了基于最大熵和基于最大可能预测错误的样例选择算法,并通过实验验证了这些算法的分类性能,结果表明这三种学习算法都显著减少了训练所需样例的数目,同时也证明了基于增量决策树的主动学习方法的有效性,并且在一定程度上会好于另外两种方法。
其他文献
电子商务,正逐渐改变着人们的生活方式,已成为当今世界的主流产业之一。然而,由于各企业的系统在网络结构、软硬件平台、系统结构特别是数据库系统结构上的差异,导致企业与企
实时系统是面向方面技术很好的应用场所,在实时系统中,有很多非功能需求,且这些非功能需求往往横切整个系统。在实时系统中关键的就是时间要求了,这些时间要求散布在整个系统
智能交通系统(ITS, Intelligent Transportation System)是目前全球广泛研究的课题,近20年随着我国公路交通事业的飞速发展,我国的公路长隧道及地下通道的不断增多,隧道自身
论文针对传统RBAC模型在大规模企业应用中存在用户授权分级管理实现复杂的不足,提出了一种基于自治域的RBAC改进模型(AD RBAC)。AD_RBAC模型引入“自治域”概念形式化描述企
决策树学习是应用最广泛的归纳推理算法之一。目前存在的决策树归纳算法大多数是基于自顶向下的贪婪算法,它在每个结点都执行一个局部最优决策。然而,在大多数情况下,贪婪算
无线传感器网络中的传感器节点由于自身资源受限,部署环境恶劣导致安全问题也越来越多。基于密码技术的安全体制能够很好地抵抗外部攻击,却无法有效地抵抗节点被俘获而发生的
近年来,计算机图形学有了巨大的发展,随着应用需求的不断增加,人们对真实感图形渲染的需求也与日俱增,其中阴影生成是不可或缺的重要方面。随着GPU处理能力不断增强,原来由CPU处理
辊道窑是一种近几十年发展起来的新型快烧连续式窑炉,目前已广泛用于建陶和日用陶瓷等陶瓷生产中,在当今经济快速发展、能源大幅消耗的情况下,降低能耗、节约成本、提高经济
Web服务作为一种分布式计算标准,提出了一种面向服务的架构。其通信协议主要是依靠SOAP来进行数据传输,通过WSDL对服务进行描述,运用UDDI发现和获取Web服务。由于在Web服务中
随着当今Internet技术日渐成熟和第三代互联网的提出,网格计算的设想与实践已不再遥远,网格计算的核心是对异地异构资源非集中性控制的资源协调,通过通用开发的协议和接口,提