论文部分内容阅读
聚类分析作为数据挖掘技术中的一种分析工具,近几十年来一直受到广泛的关注,并且已在数据挖掘、图像分割、模式识别、信息检索、计算机视觉等诸多方面有广泛的应用和研究。K-均值算法是一种典型的基于划分聚类分析算法,其对大规模数据进行聚类时效率较高,而被广泛应用在数据挖掘领域。随着数据挖掘技术的深入,各种智能优化算法在K-均值聚类中得到了较好地应用。混合蛙跳算法是进化计算领域兴起的一种新型智能优化方法,在多个应用领域已取得了较好的研究成果,己成为人工智能领域的前沿和热点之一。本文针对K-均值聚类算法的聚类结果受初始类中心影响较大而容易陷入局部极值的问题,提出了基于改进混合蛙跳算法的K-means聚类算法并对其进行了较为深入的研究,本文的主要工作如下:1.介绍了聚类分析的概念、过程、相似性度量方法、准则函数及聚类算法的分类,分析了K-means算法的缺点。介绍了混合蛙跳算法的基本框架、功能原理和特性,分析了它的优缺点.2.提出一种改进的混合蛙跳算法。该算法通过引入上一次移动距离的惯性权重系数来调节移动距离,使算法在迭代过程中,对延续上一次更新的部分移动距离呈线性减弱趋势,在一定程度上提高了算法的寻优能力。3.将改进的混合蛙跳算法引入到K-means聚类算法中,提出了基于改进混合蛙跳算法的K-means聚类算法,该算法结合了改进混合蛙跳算法和K-means算法各自在数据空间搜索的优势,克服了传统的基于聚类准则的K-均值聚类算法对初始化敏感以及容易陷入局部极值的问题,提高了算法性能。通过对Iris、Zoo、Crude oil、Thyroid diseases数据集的仿真测试,并与基于不同智能优化算法的聚类性能进行了比较,验证了基于改进混合蛙跳算法的K-means聚类算法的有效性。4.给出了基于改进混合蛙跳算法的K-means聚类算法在电压控制区域分区和西部地区信息化发展水平的区域划分中的应用,表明该算法在聚类分析方面具有良好的应用前景。最后,对全文的研究工作进行了总结,并展望了基于改进混合蛙跳算法的K-均值聚类算法的进一步研究的内容。