论文部分内容阅读
在信息时代,大量信息给人们带来方便的同时,也带来了一系列问题,比如,信息量过大,超过了人们掌握、消化的能力;一些信息真伪难辨,给信息的正确运用带来困难;信息组织形式的不一致性,增加了对信息进行有效统一处理的难度等;同时,人们还意识到隐藏在这些数据后的更深层次、更重要的信息能够描述数据的整体特征,可以预测发展趋势,这些信息在决策生成的过程中具有重要的参考价值。面对海量数据库和大量繁杂信息,人们迫切需要从中提取有价值的知识,进一步提高信息的利用率,由此引发了新的研究方向,那就是数据挖掘理论和技术的研究。目前,数据挖掘已成为一个多学科交叉的研究领域,涉及了数据库技术、人工智能、机器学习、统计学、知识获取、生物计算等许多跨行业学科的理论和技术。聚类分析是数据挖掘的一项基本任务,是将物理或抽象的对象聚集成不同的簇的过程,并且要使相同簇内部的对象间尽可能相似,而不同簇的对象间差别尽可能大。聚类是一个无监督的学习过程,是数据挖掘中一项十分重要的技术,已经广泛应用于数据挖掘各研究领域中。传统的聚类分析是一种硬划分,即每个待识别的对象只能“非此即彼”的被划分到一类当中。但在现实世界中,有的事物没有明确的界限,因此这样的硬划分具有不合理性,于是产生了基于模糊集理论的聚类算法,即模糊聚类。在众多的模糊聚类算法中,模糊C-均值算法(FCM)是应用较为广泛的一种算法,它有着深厚的数学基础,且其收敛性已被证明,同时还有着操作简单和运算速度快的特点。但是,FCM也有一些弱点,如:对噪声数据敏感,容易陷入局部极小值,算法对初始值有较大的依赖性,特别是在聚类样本数量较大的情况下,这一情况更为突出。为了改善聚类算法的一些不足之处,已有学者将一些全局寻优能力较强的智能算法引入聚类过程中,如分别将遗传算法和粒子群算法引入到K均值算法和模糊聚类算法中,在一定程度上弥补了传统聚类算法的缺点,并得到了较好的聚类效果。本文借鉴了前人的研究思想,将具有全局寻优和快速收敛特点的粒子群算法与FCM算法相结合,不同的是,本文对基本的粒子群算法进行了改进,希望能得到更好的聚类效果。在对基本粒子群算法的改进策略上,本文做了如下考虑:由于基本的粒子群算法也有陷入局部极值点,和在进化的后期收敛速度变慢等缺点,因此需要对它进行改进来防止粒子早熟,跳出局部极值点,比较有效的方法就是增加粒子的多样性。为此,本文从两个角度来加强粒子间的多样性差异,分别是增加变异操作和将粒子群分成两个子群进行独立进化。具体来说,第一种改进方法是在标准粒子群算法的基础上,增加了变异操作,而该变异操作内部又包含了两种不同的变异操作,这两种变异操作以不同的概率运行。第二种改进方法是将整个粒子群划分为二个数量不等的子种群,每个子种群内部又分别采用独立的粒子群进化。在对粒子群算法进行改进之后,再用粒子群算法的进化过程去替代FCM算法局部寻优的迭代过程,其中,在对粒子群算法中适应度函数的选取上利用了FCM算法的聚类准则函数。这样,就使得整个算法过程具有很强的全局搜索能力,很大程度上改善了FCM算法易陷入局部极小的缺陷,同时,相对于FCM算法,粒子群算法对初始值不太敏感。其中,依据对粒子群算法的改进方法的不同,将上述两种聚类算法分别命名为基于改进粒子群的模糊聚类算法(FCMP)和基于多种群粒子群的模糊聚类算法(FCMSP)。本文将这两种改进算法分别用于两个数据集中。其中,FCMP操作起来较简单,对第一个数据集的聚类效果较好,FCMSP在第二个数据集中也达到很好的聚类效果,但相对来讲操作过程较为复杂。通过两个实验证明,与基于基本遗传算法的模糊聚类算法和基于基本粒子群算法的模糊聚类算法相比,本文中基于两种改进粒子群算法的模糊聚类算法能够达到更好的聚类效果,且加快了收敛速度,提高了工作效率,在迭代的初期,就能迅速找到全局最优点,但是在降低出错率方面还有待于进一步的改善。