论文部分内容阅读
数据挖掘的基本含义就是从海量、不完全、有噪音的数据中获取对用户来说有直接或间接价值的信息。聚类分析的显著特征就是不需要任何先验知识或信息,只是根据事物之间的某些属性,把事物聚集成类,同时要尽可能满足同一个簇内和簇间的高内聚、低耦合要求,聚类是一种无导师监督的学习方法,聚类分析技术的迅速发展使得它被广泛地应用于科研和生活中的各个方面,是数据挖掘领域重要的分支之一。K-means算法是典型的一种划分聚类算法,由于算法简单而且易于实现,受到很多科研人员的关注,但同时也存在一些缺点,如对初始中心点的选择较为敏感,同样的数据集不同的初始化可能会有不一样的结果,特别是面对不规则的数据集或者是大数据集时更是如此。遗传算法是模仿生物界自然选择和进化机制的一种智能算法,以染色体为基本运算单位,通过染色体之间的交叉、变异、复制然后采用事先设定的评价函数最终选择出最优的个体。遗传算法具有潜在的并行性、较强的鲁棒性、问题无关性、全局最优性等优点,从而得到了广泛的研究和应用。云计算是大数据时代来临的必然产物,Map-Reduce计算模型是Hadoop平台里的一个组织架构,它是模仿Google云计算平台架构下的免费的、开源的一个云计算平台。近些年人们对云计算的研究大多是在这个平台下进行的。本文提出了一种在Hadoop平台下,将遗传k-means算法并行化设计实现,这样就可以避免基于MPI并行化繁琐设计同时可以提高算法的运行效率以及聚类的准确性。蚂蚁算法是近年来人们研究的热点,主要原理是研究蚂蚁活动过程中利用分泌的信息素,然后根据信息素浓度的不同来找到最佳的路径或方法。蚂蚁算法除了经常应用在人们熟悉的TSP等问题中,基于蚂蚁觅食以及尸体堆积的聚类算法中也越来越受到关注。基于蚂蚁觅食的聚类算法利用蚂蚁的群体智能性往往可以得到较好的聚类结果但是在聚类的初期由于信息素的匮乏,蚂蚁算法的收敛速度较慢,针对这个缺点本文提出对数据集进行预处理,采用基于密度和距离的方法来选择初始的聚类中心,然后据此生成初始的信息素不均匀分布从而加快了算法的收敛时间。