论文部分内容阅读
近年来,在诸如网络流量分析、传感器网络、入侵检测等应用中,相关的业务数据往往来自于多节点的网络环境,在各个节点源源不断产生大量的数据流并不断地被收集处理,这样的环境被称为分布式数据流,而从这种环境中提取知识,即对分布式数据流的挖掘的研究变得越来越重要。
与单数据流挖掘相比,分布式数据流的挖掘需要分布式的挖掘框架,目前对其的研究正处在起步阶段,可供参考的资料较少,而单数据流的研究成果已经比较丰富,并且可以为研究分布式数据流提供必要的研究基础,但是这些方法往往不能直接使用,需要对其进行一定程度的改进和优化才能良好地适应分布式数据流的环境。
本文针对分布式数据流的分类挖掘进行了如下研究:
(1)对分布式数据流涉及到的相关模型进行形式化描述,并且对研究涉及到的分布式挖掘框架进行详细设计及描述。
(2)针对数据流挖掘中涉及到的滑动窗口技术,提出一种改进的用于挖掘数据流的自适应滑动窗口(SASW)模型,以集成分类方法为依托算法阐述并演示了模型在实际环境中的运行过程。
(3)针对分布式数据流挖掘中全局模式的生成问题,参考已有的在单数据流分类挖掘中提出的微簇(micro-cluster)模型,将其扩展到分布式数据流环境下,与集成学习方法相结合,提出了一种用于挖掘分布式数据流的集成分类学习方法。基本思想是:局部节点采用以微簇为基础的局部集成分类器用来对窗口内未标签样本进行分类,学习出的局部模式传输到中心节点;在中心节点设计一种全局集成分类器代表全局模式,并且提出一种微簇融合的方法,在集成分类器容量满时用于全局模式的更新。
(4)通过实验方法对(3)中的算法进行参数评价等方面的实验,重点以全局模式对测试样本的分类精度做为评价标准,另外还与以决策树为基础分类器的集成学习方法相比较,说明了用微簇集合代表全局模式是有意义的。