论文部分内容阅读
聚类是数据挖掘领域中的一个重要研究课题。随着聚类分析对象数据集规模的急剧增大,改进已有的算法以获得满意的效率受到越来越多的重视。其中对现有算法的并行化是针对海量、高维数据的一种有效改进方法。
通过对国内外研究现状以及聚类和并行计算相关技术进行调研,本文着重对现有并行聚类算法进行了研究,并对其并行化改进方法进行了分析和比较。在此基础上,详细介绍了一种较好的、适合并行化改进的聚类算法——基于网格和密度的聚类算法。小波聚类是一种基于网格和密度的聚类算法,它满足一个好的聚类算法的很多要求,且求解思想优于一般意义上的基于网格和密度的聚类算法。结合小波聚类的自身特点,详细介绍了并行小波聚类算法的设计方法、设计模式以及实现步骤。
针对当前并行程序实现技术是并行计算的关键这一研究热点,特别在并行程序实现技术方面进行了有益的尝试和研究。首先学习和研究了集群环境下MPI并行编程机制;进而结合小波聚类的自身特点,主要以减少集群系统中并行处理的通信次数和通信数据量为目的,分别对问题的并行化划分方式,集群环境下节点间的通信策略,以及实现过程中数据网格的划分方式等方面进行了研究。
改进后的并行小波聚类算法及并行程序实现技术在曙光TC1700集群系统上进行了仿真试验。实验结果验证了,在MPI并行编程环境下我们对小波聚类算法的并行化改进是可行的、有效的。另外,本文的研究是建立在PC集群实验环境之上的,其理论和实践Ⅰ对日后在更大规模、更复杂的集群系统上进行应用研究也具有一定的指导意义。