论文部分内容阅读
随着计算机软硬件技术的飞速发展以及日益大众化,各个领域的数据呈爆炸式增长,数据的广泛使用和巨大数量使得我们的时代成为真正的数据时代。通常情况下,这些数据是以数据流的形式产生和积累的。相对于传统的静态数据集,数据流具有数据量大、随时间不断发生动态变化、连续快速等特点,这就要求流入系统的数据流必须得到实时处理。因此,传统的数据挖掘算法无法直接应用于数据流之上。数据流的特点向传统的数据挖掘算法提出了严峻挑战,并对数据流挖掘算法提出了如下要求:首先,算法需要对到达系统的数据进行实时处理,因为数据流的到达速率非常快,因此,算法的时间复杂度尽量要低;再者,由于数据流的数据规模通常较大,而计算机系统内存空间有限,不可能存储全部的数据信息,因此,算法的空间复杂度要低,使得能在一个仅保存部分数据样本的受限存储空间中得到此问题的近似最优解;此外,由于数据流的流动性,到达数据会随时间不断发生变化,算法必须能够根据数据流的动态变化来自动调节自身参数设置,使自身能够适应数据流的变化。因此,如何在数据流中提取出有用的信息成为当前数据挖掘领域的研究热点和难点。本文首先对数据流挖掘的理论基础以及一些相关的主流技术进行了概述,然后从数据流分类、聚类以及频繁模式挖掘三个角度分别介绍了一些现有的数据流挖掘算法,并在此基础上分别实现了两类不平衡分布数据流的分类算法和基于密度网格的数据流聚类算法。本文具体工作如下:1.对当前基于数据流的分类算法进行了分析。针对两类数据流分布不平衡的问题和概念漂移现象,在结合当前经典的数据流分类算法和集成分类器算法的优点后,设计并实现了一种具有更好适应性的SeRt算法。实验结果表明,该算法能有效地解决两类不平衡分布问题和数据流中存在的概念漂移现象。2.在传统聚类算法K-Means、数据流聚类核心技术——CluStream框架模型以及现有的数据流聚类算法PKS-Stream的基础上,设计并实现了基于密度和网格的数据流聚类算法PKS-Stream-I。该算法是对PKS-Stream算法在密度检测周期选择,稀疏网格检测和移除方面的改进。实验结果表明,该算法相对于PKS-Stream算法具有更小的时间复杂度和空间复杂度,能够产生更好的聚类效果。