一种基于延伸网格密度的数据流聚类算法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:wangsong1st
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的发展,信息量也在剧增。在金融服务、电子商务、股票交易、入侵检测、卫星、气象、电信通讯等具体运用中,出现大量的数据,这些数据有别于传统数据,海量而快速达到的数据,形成了数据流。在信息量丰富的同时,如何处理这些数据流并从中查询或分析出所需的有用知识,成为研究领域关注的难点和热点,由此产生了数据挖掘技术,并成为热点技术之一。聚类分析则是数据挖掘技术的重点研究方向之一,而数据流聚类方法也是基于传统聚类方法研究改进得到的。本文将网格和密度方法相结合提出一种基于延伸网格密度的数据流聚类算法。由于基于密度的聚类算法虽可以得到各种形状的聚类结果,但是其对数据进行处理时,计算比较复杂。而基于网格的聚类算法虽然聚类质量不如基于密度的算法,但是能用简单的划分与合并网格的方法,计算方便,能对数据进行快速聚类。所以,将两者相结合可以达到较好的聚类效果。本文算法在划分网格单元时,对原始网格单元进行延伸,提出延伸网格的概念,在计算网格单元密度时,加入延伸区域的点对网格的影响度,避免了直接把网格内的数据点个数作为网格密度时所导致的数据空间中有效信息的丢失情况,从而实现对边界点的有效聚类。同时,由于人工设置密度阈值对用户要求较高,需要用户具有相关领域的背景知识,本文提出自适应的密度阈值计算方法,能够适应数据流的动态变化,从而减少用户的负担。接着本文运用滑动窗口机制,基于网格密度的连通度概念分析优化合并规则,提出改进的基于延伸网格结构的聚类初始化算法和聚类更新算法框架并加以实现。本文针对算法更新时滑动窗口滑动步数的设置,网格划分数目,聚类质量和效率等进行了多次比较实验,实验结果表明本算法具有较好的聚类质量和较高的实时聚类效率。
其他文献
在自然界中,许多复杂和有趣的现象都能够被归为非线性现象。大脑的认知活动便是其中之一。用来解释非线性现象的理论称作非线性动力系统,也叫做混沌理论。人的大脑在物质上的
组播技术实现了网络中点到多点的高效数据传送,能够大量节约网络带宽,降低对网络设备系统资源的占用。组播技术的优点使得其在日益流行的流媒体业务中得到了广泛的应用,如IPTV业
Web服务组合是将Web上的多个功能单一、自治的、可共享的Web服务按照业务流程进行通信和协作,形成粒度更大、功能更强的复杂服务,以满足用户更高的目标需求。随着Web服务技术不
:随着无线网络技术的发展,无线传感器网络近年来引起了广泛的关注。该网络由大量具有有限感知能力和传输能力的节点组成。受节点自身能量的制约,如何能源有效的利用节点使得
随着英特网的迅速发展,我们接触到的电子文档越来越多,如何从海量的电子资源中找出我们所需的内容显得越来越重要。如果一篇文档提供有关键词,那么读者可以快速的判断出这篇
G(o)del语言是继Prolog之后出现的一种新型通用逻辑程序设计语言,它具有一个多态多类的类型系统、有灵活的计算规则和剪枝操作、支持模块化程序设计,因此相对与Prolog语言具
计算机技术中软硬件技术的快速发展促使用户对各类软件的功能和性能提出更高期望和要求,软件成本也随之不断升高。网络覆盖地域范围的扩大与网络接入设备的多样化使得软件相关
随着互联网技术的发展和云计算技术的出现,越来越多的公司企业开始面对海量数据的处理。传统的集中式处理方式和分布式处理方式很难满足海量数据的计算需求,而云计算技术的发展
编写结构化查询语言(Structured Query Language,以下简称SQL)的语句是测试数据库管理系统(Database Management System,以下简称DBMS)的一个重要部分。自动生成SQL语句可以
围绕可证明安全公钥密码方案的设计与分析这一主题,本报告主要包括以下几个方面的内容:   1.在一般签名方案基础上提出指定条件下k次签名的概念,给出了指定条件下k次签名方