论文部分内容阅读
随着信息技术在工业界的迅猛发展,数据的规模与人们获取的数据也与日俱增,对这些海量数据的处理已成为近来年备受关注的问题。数据挖掘作为一种通用的知识发现技术,是在海量数据中发现数据间内在关系的过程。聚类分析技术是数据挖掘中对数据处理的一种重要方法。由于数据不断呈现出属性类型的多样性、规模的海量性、分布的不均匀性,不同的数据类型需要不同的聚类算法。目前,对数值型数据的聚类分析取得很多的成果,而在实际应用中存在大量的分类型数据。由于分类型数据不具有数值型数据固有的几何特性,因而在聚类算法和模型上与数值型数据有较大不同,近年来针对分类型数据聚类算法的研究得到了广泛的关注。 模糊聚类通过将模糊集理论应用到聚类分析中,提高对数据的模糊处理能力,能较为清晰、客观地反映现实事物,因而在许多领域被广泛应用。模糊k-modes(FKM)算法是模糊聚类中备受关注的一种算法,具有局部寻优能力强且收敛速度快的特点,成为分类型数据模糊聚类算法关注的热点。但FKM算法对初始中心点的选取较为敏感,算法以不同的初始中心进行聚类会得到不同的结果,影响最终的聚类结果。此外FKM算法由于采用迭代的搜索技术,同时解空间内存在大量局部最优点,因此易陷入局部最优,而无法得到全局最优。 针对以上问题,本文开展了以下工作: (1)提出结合离群点检测的初始中心选择算法。针对FKM算法对初始中心选取敏感这一问题,通过调整初始中心选择过程中距离与密度之间的关系,加大初始中心选择中距离所占的权重,使得寻找到的初始中心更具有分布性。同时,引入基于距离的离群点检测技术,对改进初始中心选择后得到的候选数据集进行筛选,将候选数据集中的离群度较大的点剔除。实验结果表明,改进的初始中心选择方法提高FKM算法的准确率与精度,降低FKM算法对初始中心选取的敏感程度。 (2)提出基于改进遗传算法的模糊聚类算法(IGAFKM)。将遗传算法与模糊聚类算法相结合,利用遗传算法的随机搜索提高模糊k-modes算法的全局寻优能力,加快算法的收敛速度。遗传算法是一种全局优化算法,通过模拟自然界生物的进化过程搜索问题的最优解,具有算法简单,搜索范围广泛的特点。根据种群中个体的多样性,对遗传算法的交叉与变异算子进行动态调整,以保证整个种群的多样性,避免算法收敛到局部最优,加快算法向全局最优点的收敛过程,从而提高FKM算法的全局寻优能力。实验结果表明,改进遗传算法的模糊聚类算法(IGAFKM)与FKM算法,传统遗传模糊聚类算法(GAFKM)相比在收敛速度上有所提升,同时IGAFKM算法的准确率也优于FKM算法与传统遗传模糊聚类算法(GAFKM)算法。