论文部分内容阅读
随着时代的发展,信息量也在剧增。在金融服务、电子商务、股票交易、入侵检测、卫星、气象、电信通讯等具体运用中,出现大量的数据,这些数据有别于传统数据,海量而快速达到的数据,形成了数据流。在信息量丰富的同时,如何处理这些数据流并从中查询或分析出所需的有用知识,成为研究领域关注的难点和热点,由此产生了数据挖掘技术,并成为热点技术之一。聚类分析则是数据挖掘技术的重点研究方向之一,而数据流聚类方法也是基于传统聚类方法研究改进得到的。本文将网格和密度方法相结合提出一种基于延伸网格密度的数据流聚类算法。由于基于密度的聚类算法虽可以得到各种形状的聚类结果,但是其对数据进行处理时,计算比较复杂。而基于网格的聚类算法虽然聚类质量不如基于密度的算法,但是能用简单的划分与合并网格的方法,计算方便,能对数据进行快速聚类。所以,将两者相结合可以达到较好的聚类效果。本文算法在划分网格单元时,对原始网格单元进行延伸,提出延伸网格的概念,在计算网格单元密度时,加入延伸区域的点对网格的影响度,避免了直接把网格内的数据点个数作为网格密度时所导致的数据空间中有效信息的丢失情况,从而实现对边界点的有效聚类。同时,由于人工设置密度阈值对用户要求较高,需要用户具有相关领域的背景知识,本文提出自适应的密度阈值计算方法,能够适应数据流的动态变化,从而减少用户的负担。接着本文运用滑动窗口机制,基于网格密度的连通度概念分析优化合并规则,提出改进的基于延伸网格结构的聚类初始化算法和聚类更新算法框架并加以实现。本文针对算法更新时滑动窗口滑动步数的设置,网格划分数目,聚类质量和效率等进行了多次比较实验,实验结果表明本算法具有较好的聚类质量和较高的实时聚类效率。