论文部分内容阅读
聚类分析是数据挖掘领域中一个非常重要的研究方向。近年来,随着信息技术的高速发展出现了一种应用日益广泛的动态流数据—数据流。数据流不同于传统的存储在磁盘上的静态数据,它是高速的、连续的、动态的、快速变化的、海量的数据集合,由此对它的访问只能是顺序的、一次或有限次的。数据流的这些特性既给数据流的挖掘带来了极大的困难,也给数据流的聚类算法提出了更高的要求。在当前的数据挖掘领域中,数据流已经成为一个研究热点,同时数据流聚类分析也成为聚类研究的一个重要方向。
本文首先介绍了数据流挖掘的相关理论与技术,结合流数据与传统的静态数据的不同分析了数据流的特点。同时对传统聚类算法与数据流聚类算法进行了研究和对比,分析了算法的优势与不足,阐述了数据流聚类算法的特点及其与传统聚类算法的不同。然后介绍了用于聚类算法的网格划分方法及其在聚类分析中的作用,并对基于网格的聚类算法进行了研究与分析。在此基础上给出了一种新的数据流聚类算法—GTSClu算法,该算法是基于网格的最小生成树(MST)数据流聚类算法,算法分为在线处理与离线聚类两部分,并运用了网格与最小生成树技术。在线部分通过均匀网格划分数据空间以获取数据流的信息,离线部分将网格空间拆分为不均匀的网格结构,并利用最小生成树技术对在线获得的信息进行聚类。GTSClu算法可以有效排除噪声数据发现任意形状的聚类,有效提高了聚类效率和质量。
实验结果表明,GTSClu算法能够发现任意形状的聚类,对数据的输入顺序不敏感,而且网格拆分技术的采用使其能够有效分离出噪声数据具有很高的聚类精度和处理效率,适合处理大规模的数据流。