数据流聚类算法及其应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:guosheng_741
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着网络信息技术的高速发展,产生了一种新式的数据模型——数据流。它常常产生于web上的用户点击、网络入侵检测、实时监控系统或无线传感器网络等动态环境中。相比较传统据集,这些海量的数据流具有快速性、连续性、变化性、无限性等特点,使数据流的挖掘面临着新的要求和挑战。聚类分析作为数据挖掘领域的一个重要课题,能够使未标记数据按照指定属性分组为不同的类,在近期得到广泛研究和高度重视。本文以数据流聚类算法为研究内容,异常数据点的检测为研究目标,主要作了以下三个方面的工作:(1)总结了数据流模型及其聚类的相关概念和技术,并描述了数据流聚类的特殊要求以及目前国内外数据流聚类算法。同时说明了异常检测的定义、现有方法以及当前所面临的挑战。(2)在高速网络中,数据流具有高速、突发等特性,使得高速网络中的异常检测成为一个难点。本文提出了一种基于SSClu树的流聚类算法用于高速流的异常检测。算法首先引入一种维持数据流概要信息的SSClu树;然后针对数据流的高速特性,采用预先聚集和缓存机制。预先聚集是在数据流对象插入SSClu树聚类之前对其进行预先聚类的过程,以处理突发高速数据流的到达;缓存机制是用于当高速流到达时,暂存当前来不及处理的数据流对象,解决了高速流不能及时聚类的问题。仿真结果表明,本算法能及时处理高速数据流,且具有较高的聚类精度,保证了高速流下异常检测的准确性。(3)针对无线传感器网络中的离群点检测问题,考虑到无线传感器网络(Wireless Sensor Network,WSN)环境分布式以及能源消耗的限制,提出了一种基于相似性群集模型的流聚类算法(Stream Cluster algorithm Based on Similarity Flocking model,SCBSF)。算法采用一种模拟群体运动的群集模型将数据自我组织来形成聚类,这种自组织性更加适用于分布式环境批量数据点的聚类;同时通过群集规则来完成任意形状簇的聚类,而不需要采用传统二阶段聚类思想,减少了算法计算和存储复杂度;考虑到WSN中算法的能耗问题,在采集节点端,利用初始聚类信息来临时记录所产生的相似数据特征,以此来减少数据传输从而达到降低通信能耗的效果。仿真结果表明,算法不仅具有较好的离群点检测效果,同时也降低了聚类过程中数据计算和传输的能源消耗。
其他文献
近几年来,关于微电网技术方面的研究是国内外电力系统研究的热点和重点,而控制问题是微电网在实际运行中需要解决的关键问题之一。本论文的研究主要是围绕着微电网的控制问题而展开的。本文论述了国内外微电网的发展情况,微电网概念和结构,以及微电网的一些关键技术。多智能体技术具有自治性、社会性、反应性、协调性,并且具有很强的推理能力,以及自组织能力和学习能力,可以很好的解决微电网控制中的问题,所以本文提出了基于
在网络图像资源呈爆炸式增长的今天,如何有效地管理这些资源并让用户可以方便地访问其所需要的图像成为众多研究的焦点。基本方法主要包括图像检索和图像浏览,而图像标注则是
随着计算机技术和移动通讯技术的迅猛发展,建立在移动通信技术基础上的一种新的计算模式—移动计算(mobile computing)模式获得了飞速发展。目前以广播模式发布数据来支持并
图作为反映数据中携带信息最重要的一种表达方式,在许多领域得到广泛的应用。而热图是超越传统图形意义的一种新型的信息可视化方式,在现代的可视化领域中,热图的使用更加广
随着Internet技术的发展,网络应用服务越来越丰富多彩。为了对互联网中各种各样的流量实施有效的监控,首先需要使用协议识别技术来分辨网络流量的不同应用类型,然后才能够有
在研究Web服务组合中存在着一个重要问题是怎么样使用进程代数形式化的描述Web服务组合并且证明Web服务组合的正确性。用Pi-演算建模Web服务组合的模型可以用来检查、验证Web
本文研究了基于CART(Classification and Regression Tree)算法的基因芯片数据的分类问题。基因芯片技术对于早期癌症的诊断和确诊是一个革命性工具,它从基因表达的角度判断
由于网络的飞速发展,当前的网络正面临严重的安全和管理等方面的挑战,保障网络的可控性成为当今网络发展的迫切需求,国内外许多组织都针对该问题陆续开展了相关研究工作。针对当
随着网络技术和即时通信技术的飞速发展,即时通信工具随之得到了广泛的应用。这一通信工具领域的革命,改变了人们以电子邮件为主的传统的通讯方式,使协同化办公中需要员工互
决策树剪枝是决策树优化的常用方法。在保持决策树分类精度的前提下,该方法通过去掉决策树中某些子树的方法,达到减小决策树规模的目的。目前的决策树剪枝方法按照一定顺序遍