基于衰减窗口与剪枝维度树的实时数据流聚类研究

来源 :武汉科技大学 | 被引量 : 0次 | 上传用户:hanyi1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实时数据流挖掘是目前数据挖掘与数据库领域的新兴研究热点,针对实时数据流的聚类分析技术也是该研究中最具有挑战性的难题之一。本文首先介绍了基于实时数据流的数据挖掘和知识发现的研究背景以及该领域现有的主要研究分支:聚类、分类、频繁模式挖掘、关联规则分析等。然后综述了实时数据流聚类技术的最新研究进展,在介绍实时数据流聚类相关理论和常用技术的基础上,对现有各种代表性实时数据流聚类算法的优势和不足进行了系统地分析,从处理速度、聚类形状、演化分析、高维性能及噪声健壮性五个方面对这些聚类算法的性能进行了深入地比较研究,探讨了基于聚类的实时数据流演化分析方法及其局限性。针对现有实时数据流聚类算法存在的处理速度慢、系统消耗大以及不能识别任意形状聚类等问题,本文设计并实现了一种基于衰减窗口与密度维度树的实时数据流聚类算法PDStream,该算法首先对数据空间进行网格划分,将数据流依次映射到网格空间中,采用一种改进的维度树结构在线维护和更新数据流的概要数据结构,同时设计了一种周期性剪枝策略,周期性地剪去维度树中的稀疏网格,以降低系统消耗,最后采用深度优先搜索算法在线处理聚类请求,通过不同时刻的聚类结果比对来实现数据流的演化分析。基于人工数据集和真实数据集的实验表明,本研究所提出的聚类算法PDStream可以有效地发现实时数据流在任意时刻具有任意形状的聚类,并且聚类效果较好、内存消耗少、处理速度快,具有较好的计算精度。
其他文献
数字水印的嵌入技术基本上可分为两类:时域法和频域法,时域法就是直接改变图像像素的灰度值,如直接4bit替换法,既是直接用秘密图像像素值的高4bit去替换载体图像像素值的低4b
随着网络信息的迅速膨胀,人们从Web上获取感兴趣信息越来越困难。因此,为用户提供感兴趣信息的个性化推荐技术获得了广泛关注。目前个性化推荐技术多数是基于Web服务器端数据
学位
Internet上的信息绝大部分都包含在web页中。而在内部网中,信息(数据和内容)分散在web页、数据库、邮件服务器或者其他协作软件、文档库、文件服务器和桌面中。内联网搜索引擎
随着分布式应用范围的不断扩大,基于异步低耦合的编程架构已经逐渐成为分布式应用开发的主流。虽然目前出现了很多不同的企业应用集成(EAI)解决方案,但消息中间件始终是这些不
互联网技术的发展使越来越多企业通过网站来进行宣传,让潜在的客户能够通过网站了解企业及其产品的信息,企业也通过网络进行营销。搜索引擎作为网站推广和产品促销的主要手段,得
随着Internet(因特网)及Web(万维网)技术的发展,众多基于Web的应用系统应运而生,Blog就是其中之一。Blog用于提供用户以日志方式发布网页,由于采用了RSS技术,Blog的沟通方式
学位
TTCN-3作为一个测试技术已被越来越多的人所熟知。它不仅可以进行一致性测试,还可用于多种测试,包括互操作性测试、健壮性测试、回归性测试、系统及集成测试。TTCN-3是一种灵
面向方面程序设计(Aspect-Oriented Programming,AOP)是一种在面向对象程序设计(Object-Oriented Programming,OOP)基础之上发展起来的新技术。该技术有效地解决了横切关注点的
学位
随着网络技术的应用与发展,基于网络的应用已经成为开发计算机应用程序的基本功能。在许多计算机应用系统中,不可避免地涉及到有关数据库的操作,其中相当一部分是以数据库为