分布式数据流的集成分类学习方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:hpp6855132
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在诸如网络流量分析、传感器网络、入侵检测等应用中,相关的业务数据往往来自于多节点的网络环境,在各个节点源源不断产生大量的数据流并不断地被收集处理,这样的环境被称为分布式数据流,而从这种环境中提取知识,即对分布式数据流的挖掘的研究变得越来越重要。   与单数据流挖掘相比,分布式数据流的挖掘需要分布式的挖掘框架,目前对其的研究正处在起步阶段,可供参考的资料较少,而单数据流的研究成果已经比较丰富,并且可以为研究分布式数据流提供必要的研究基础,但是这些方法往往不能直接使用,需要对其进行一定程度的改进和优化才能良好地适应分布式数据流的环境。   本文针对分布式数据流的分类挖掘进行了如下研究:   (1)对分布式数据流涉及到的相关模型进行形式化描述,并且对研究涉及到的分布式挖掘框架进行详细设计及描述。   (2)针对数据流挖掘中涉及到的滑动窗口技术,提出一种改进的用于挖掘数据流的自适应滑动窗口(SASW)模型,以集成分类方法为依托算法阐述并演示了模型在实际环境中的运行过程。   (3)针对分布式数据流挖掘中全局模式的生成问题,参考已有的在单数据流分类挖掘中提出的微簇(micro-cluster)模型,将其扩展到分布式数据流环境下,与集成学习方法相结合,提出了一种用于挖掘分布式数据流的集成分类学习方法。基本思想是:局部节点采用以微簇为基础的局部集成分类器用来对窗口内未标签样本进行分类,学习出的局部模式传输到中心节点;在中心节点设计一种全局集成分类器代表全局模式,并且提出一种微簇融合的方法,在集成分类器容量满时用于全局模式的更新。   (4)通过实验方法对(3)中的算法进行参数评价等方面的实验,重点以全局模式对测试样本的分类精度做为评价标准,另外还与以决策树为基础分类器的集成学习方法相比较,说明了用微簇集合代表全局模式是有意义的。  
其他文献
随着我国大力推行医疗信息化、无纸化、共享化,建立统一的居民健康档案部署规划,区域医疗信息化逐渐成为医疗行业信息化建设的重点。在区域卫生信息平台中,居民的医疗、保健
近几年,随着计算机的广泛应用,计算机视觉、图像处理及可视化技术成为非常热的研究方向,也越来越多的应用在诸如医学等其他领域内。另一方面,医学领域内的磁共振成像(Magneti
互联网的快速发展,特别是Web2.0的崛起,为用户提供了越来越丰富的网络应用和服务。这些应用包括博客、照片、视频、微博、个人网络存储等等。它们为用户带来便利的同时,也存在着
可信计算是信息安全领域的新技术,它从终端入手,从根本上解决信息系统的安全问题,它的三大主要功能是数据保护、身份证明和完整性度量、存储、报告。在可信计算中,用户对实体(如密
随着多媒体产业的迅猛发展,许多通用微处理器中都加入了SIMD扩展指令集。处理器系统需要硬件设备、操作系统和编译器的紧密耦合才能正常工作,编译器的性能直接影响了系统的整体
Web信息分布的局部专题化是互联网信息所呈现的特征之一,伴随着面向主题信息获取的需求越来越多,用户希望主题信息获取能够做到领域信息搜集更完备、更新速度更快、并能够自
光学成像效果是与光学镜头成像特性相关的一类光学效果,常见的包括景深、渐晕、光学像差、散景、眩光等效果,在计算机生成的图像中加入这些效果可以增强图像的真实感和逼真度。
语义网是一种能理解人类语言的智能网络,目的是完成基于语义的知识表示和推理。RDF是W3C推荐的一种语义网信息描述方式,用于表达任何可在Web上被标识的事物信息,它提供的语义丰
为了满足多核及众核处理器对高并发、低延迟、高可靠片上通信的需求,片上网络逐渐取代总线成为芯片内部的主流互连方案。但是由于芯片内部资源的限制、芯片特征尺寸的不断缩小
近年来,随着信息化业务的不断发展和IT系统的日益复杂,数据中心的规模在不断扩张,而严重的电力消耗日益成为数据中心在成本控制和后续发展方面不可忽视的问题。各国的研究者纷纷