论文部分内容阅读
作为一门无监督学习技术,聚类广泛应用在很多领域中,包括数据压缩,文件检索,人工智能,临床图像和微阵列分析等多方面。随着信息技术的飞速发展,在这些领域中积累的数据量将不可避免地跨过Peta级门槛,那么如何解决海量数据的存储并在其上进行相应数据挖掘以获得我们想获得的信息成为了当前面对的两个核心问题。海量数据存储问题通过分布式技术得以解决。因此海量数据挖掘成为了今年的热点问题。针对大量数据的聚类问题,我们提出了自己的算法并验证了算法的效果。 本文应用Map-Reduce分布式并行计算模式来实现对大量数据的自动聚类。Map-Reduce[37]模式的优点在于其本身可以由 Hadoop自动管理大型计算机集群并将分布式计算任务以传递计算而非一般传递数据的方式分配给多台机器,我们无需考虑计算调度问题,机器故障恢复和高效计算机之间通信等问题。文中算法优点在于通过少量对实验结果不敏感的参数来准确地确定海量数据中聚类后簇的个数和中心,同时为适应海量数据挖掘的需求,算法的复杂度限定在O(tn)(t为迭代次数),根据对正确率的不同需求可以通过增加固定参数大小的港式来获得更精确聚类结果。 本文的主要研究内容和研究成果归纳为以下几个方面: 首先,对文中所涉及的聚类算法方面的背景理论知识进行介绍,主要集中在确定簇的个数、初始中心选择、簇的内部聚类和分布式数据挖掘相关理论这四个方面。 其次,提出一种高效的自动聚类算法,通过确定初始中心集合、中心移动与融合三个步骤来实现自动聚类过程。根据算法在不同复杂数据分布情况下与K-MEANS、DBSACN、X-MEANS等算法的对比结果,我们证实了tnn-means算法在单机情况下的正确性和鲁棒性。 然后,基于Map-Reduce分布式并行计算模式,我们将tnn-means算法在分布式模式下实现并对该算法进行分析。通过对算法过程的说明,在理论上验证了单机情况下与分布式情况下的tnn-means算法的一致性。实验也验证了这一点,同时实验结果也充分说明了文中算法在分布式下的正确性和高效性。 最后,基于以上研究成果,我们总结了tnn-means算法优点和不足并提出了改进方案。