面向情报大数据的决策树增量学习算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:maailin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于具有易于理解的优势,决策树成为最流行的分类方法之一。然而,利用已经存在的方法构建的决策树一般都会过于庞大、复杂化,因此在实际应用中实用性受到限制。此外,当今社会数据通常都是不断增加的,如果使用传统的决策树算法,即新增一批样本之后,将历史数据和新增数据再放在一起重新学习一遍,这种方式会把以前的知识遗忘掉,使得之前学习到的决策树没有任何意义。因此,这时候增量学习就变得尤为重要,即利用新增样本对以前学习到的决策树进行更新调整。  在深入研究决策树方法和增量学习方法的基础上,本文提出一个新的决策树算法NOLCDT。在分裂结点之前,NOLCDT算法把结点中每个候选属性的多个属性值分别合并成两组,选择信息增益最大的候选属性将结点分为两个分支,这种方式可以避免生成太多的分支,进而防止决策树过于庞大。NOLCDT算法在选择下一个将要分裂的结点方面也有所改进,该算法为所有候选分裂结点计算对应的结点分裂度量值,并且总是选择结点分裂度量值最大的候选结点作为下一个分裂结点,使得每次分裂都有最大的信息增益。此外,本文在决策树增量学习算法ID5R的基础上,提出一种改进算法IID5R, IID5R增加了评估分类属性质量的功能,且推导出分类属性被候选属性替代的最小样本数的计算公式。将NOLCDT与IID5R相结合,提出了一个混合分类器算法HCS,HCS算法主要有两个阶段组成:构建初始决策树和增量学习。根据 NOLCDT建立初始决策树,然后使用IID5R进行增量学习。HCS算法综合了决策树以及增量学习方法的优点,既便于理解又适于增量学习。  选用UCI数据库中的数据集作为实验的数据来源,将传统的决策树算法与本文提出的混合分类器算法进行实验对比,结果表明 HCS可以很好的解决增量问题,构建的决策树更简单便于理解,增量阶段消耗的时间减少。
其他文献
近年来,面向服务的体系结构和以Web Services为代表的相关标准和实用技术受到了人们的普遍关注。面向服务的体系结构的优势之一在于能以松耦合方式集成来自不同提供商的第三
随着国民经济的发展和科技的进步,网络在人们的生活中发挥着日益重要的作用,越来越多的人开始利用网络从事各类商务、办公、教学等活动。从本质上来讲,在网络环境下,对数据的
入侵检测技术是目前网络安全领域的一个研究热点,虽然目前入侵检测技术已经有了长足的进步,开发出了许多针对不同需要的产品,但传统的入侵检测系统仍然存在一些缺陷,例如在分