论文部分内容阅读
随着计算机技术的不断发展,企业数据库中所积累的数据也呈指数级别迅速增长,对海量数据中所蕴涵知识的探究促进了数据挖掘技术的研究。近年来,出现了基于数据流的数据密集型应用。基于数据流的应用具有大规模,持续性,潜在无限性和瞬时性等特点,传统数据挖掘方法在处理数据流时将面对内存受限,单次扫描等限制,变得效率低下。因此,对数据流应用中数据挖掘技术的研究和算法的改进成了数据挖掘技术中的重要一支,并处于持续的发展中。
聚类分析是数据挖掘中的一个重要组成部分,用于发现潜在数据中的有用数据分布和数据模式。根据流式数据的特点,其相应的聚类分析算法应能够持续的对输入数据进行处理,根据数据源的变化不断对聚类中心进行更新。
在本文中,我们分析了基于数据流聚类分析技术的特点,并主要针对以下问题提出解决方案:
1、目前的数据流聚类模型大多数是基于k-中心或k-均值的,它们不具备任意形状簇的挖掘能力。
2、模型要具备一定的抵抗噪声的能力。
3、模型要具备满足任意时刻聚类需求的能力。
我们采用基于密度的聚类分析技术,在延伸CluStream算法思想的基础上,引入候选微簇和噪声微簇对微簇结构进行进一步的划分,提出了一个新的基于密度的聚类分析模型DB-DSCM。
DB-DSCM模型采用基于密度的DBSCAN算法对初始数据集进行处理,形成微簇集合,DB-DSCM模型的核心部分是选择归类模块和微簇在线维护模块,前者按照一定的规则对新到达的数据对象进行分析处理,选择合适的微簇进行归并,后者依照一定的权重衰减规则,周期性对微簇进行维护。在聚类结果生成时,模型同样采用基于密度的DBSCAN算法对由微簇构成的虚拟数据点进行处理。
本文针对DB-DSCM,选择适当的真实数据集与人工数据集进行实验,对模型的聚类质量进行评估,并对模型的抗噪声能力和执行效率问题进行了测试分析。实验结果表明,DB-DSCM模型具备较高性能的数据流聚类处理能力。