论文部分内容阅读
随着大数据时代的到来,从海量数据中获取有价值信息的需求日益增加,迫切需要一些新的方法来处理海量数据。聚类分析作为数据挖掘中的重要组成部分,对数据挖掘技术的发展有着重要意义。聚类分析不仅可以单独对数据集进行处理,获得需要的数据分布情况,还能够作为其他数据挖掘算法的数据前期预处理操作。针对传统方法在解决现有问题上的不足,和更好的对海量数据进行处理,发现数据集中隐含的有价值信息,以及能更全面、更高效的满足实际应用需要,亟需对相关聚类方法进行深入研究。K-Means聚类算法是一种思想简单易于实现,并且收敛速度快的经典聚类方法,该算法存在的主要缺点是初始化时需要明确给出数据集要聚成簇的数目和初始的聚类中心。群体智能算法是一种模拟群体生物生活习性的优化搜索算法,遗传算法和蚂蚁算法是其代表性算法。遗传算法是对整个解空间进行搜索并且下一代的产生是通过遗传操作获得,所以能够增加解的多样性,扩大搜索范围,避免收敛于局部最优解。蚂蚁算法具有较强适应性,能处理多种类型数据并且能够发现最优解,并且还具有易于与其他智能算法或聚类算法结合成高效、新型组合算法的优点。本文主要是对聚类算法和智能算法进行研究。首先对聚类分析的相关内容进行了介绍,详细分析了聚类的要求、评价准则和经典的聚类方法等,然后介绍了群体智能的相关概念,主要分析了遗传算法和蚂蚁算法的原理及算法流程和优缺点。由于蚁群聚类算法存在前期收敛速度慢,后期出现易早熟的缺点,有学者针对K-Means聚类算法收敛速度快和蚂蚁算法能获得最优解的优点提出将两者相结合的算法,但该算法并没有改善后期易早熟的问题。针对现有方法在后期易陷入早熟的缺点,本文提出在算法迭代后期引入遗传算法中的变异算子,增加解的多样性,扩大搜索范围。通过采用UCI数据集中数据,以及与蚂蚁聚类算法、原有K-Means蚁群聚类算法的对比实验验证改进的新算法能够有效改善收敛局部最优的问题,并且保留了原有算法加快收敛速度的优点。针对K-Means聚类算法初始簇数目值的给定以及随机选择聚类中心对聚类结果产生较大波动的弊端,结合层次聚类的分裂和凝聚思想,提出基于最小生成树的层次K-Means聚类算法,通过仿真实验验证了该算法的有效性。