论文部分内容阅读
数据挖掘是近年来在信息决策领域较为活跃的热点课题。在数据挖掘的众多技术中,聚类分析尤为重要,它把数据对象分为若干类,让同一类中对象的相似性尽可能大,不同类间对象的相似性尽可能小,K调和均值聚类算法(KHM)是一种类似于k-means的聚类算法,属于划分聚类,该算法用数据点与所有聚类中心的距离的调和平均值替代了K-means算法中数据点与聚类中心的最小距离,成功地解决了K-means算法对初值敏感的问题。KHM实现简单,对初值不敏感,收敛速度快,但容易陷入局部最优值。遗传算法是一种高效的全局搜索方法,具有较强的鲁棒性和全局寻优能力。本文先将遗传算法跟K调和均值聚类算法相结合,互相取长补短,提出了一种新的算法:基于遗传算法的K调和均值聚类算法(GAKHM)。并通过实验验证了GAKHM具有较好的聚类效果。然后,针对GAKHM具有执行效率低,时间复杂度大等缺点,本文在GAKHM的基础上,引入量子算法,从而提出了基于量子遗传算法的K调和均值聚类算法(QGAKHM)。实验结果表明QGAKHM是一种执行效率高,聚类效果好的算法。本文的主要工作如下:首先,介绍了本文所需要的基础知识,主要有聚类分析,遗传算法和量子遗传算法相关知识。对它们的基本原理,优缺点进行了详细的分析。其次,针对遗传算法和K调和均值聚类算法的优缺点,提出了一种新算法:GAKHM。并从适应度函数的构造,染色体编码,选择算子,交叉算子,变异算子和K调和均值聚类算法的操作等方面对GAKHM进行详细的描述。实验结果表明GAKHM算法能够优化聚类中心,具有较好的聚类效果。最后,在GAKHM算法的基础上,引进量子算法,提出了QGAKHM。并详细介绍了K调和均值聚类算法,量子染色体编码,量子旋转门,适应度函数构造,量子变异,量子交叉等操作。最后通过实验验证了(QGAKHM算法的有效性及可行性。