论文部分内容阅读
随着科学技术的进步以及数据库应用的普及,数据挖掘技术已经成为近年来国际社会在信息决策领域的重要研究方向之一,同时,也是随着信息技术不断发展而形成的一门新学科。聚类分析作为一种重要的数据分析方法已经成为数据挖掘领域中一个非常活跃的研究课题。聚类分析的方法有很多,在本文中重点介绍了C-MEANS和模糊C-MEANS(FCM)基于划分的聚类方法。但是对初始聚类中心的选择敏感,并且容易陷入局部最优是这两种聚类算法典型的缺点。因而,在本文引入了智能优化算法。智能优化算法是迅速发展起来的对已有一些经典的聚类算法进行优化的行之有效的方法。近年来,发展起来的用于聚类分析的智能优化的算法主要有:基于免疫原理的人工免疫算法、基于进化的差分进化算法、基于蚂蚁系统的蚁群算法、基于遗传学的遗传算法和模拟退火算法等智能优化计算方法。这些算法各有特点,广泛用于解决各类聚类问题。本论文主要利用了基于免疫原理的人工免疫算法、把遗传算法和模拟退火相融合的算法来实现数据聚类并将聚类方法应用到图像压缩即设计矢量量化码书,通过实验验证均取得了有效的结果,主要工作包括以下三个方面:首先,针对传统的克隆选择算法在解决聚类问题中存在着收敛速度慢、聚类效果不佳以及进化聚类算法采用单一的聚类指标的缺陷等问题。将多目标优化思想引入到免疫克隆聚类算法中,根据免疫系统所体现出的局部学习生物特征,在算法中设计了一种新的局部学习算子,并在此基础上提出了基于局部学习算子的人工免疫多目标模糊聚类算法。提出的算法在对人工数据集和UCI数据集聚类的结果表明,该算法能取得较高的聚类正确率其次,针对遗传算法的容易陷入早熟以及模拟退火算法收敛速度慢等缺点,将模拟退火算法融入到遗传算法中,提出基于遗传的模拟退火聚类算法及其在矢量量化码书设计中的应用。鉴于基于划分的染色体实数编码方式的特点以及对染色体的操作细化为对基因的操作,由此提出了新的有效的模拟退火方法、以及交叉操作算子和突变操作算子。同时,算法中采用核空间距离代替欧氏距离,从而使得提出的聚类算法能处理分布复杂的数据聚类问题。在此基础上设计实现了用于自然图像压缩的模拟退火遗传核函数矢量量化算法.实验结果表明提出的算法在大部分的数据集上都能取得较好的结果。最后,针对LBG算法对初始码书较为敏感的缺点,将免疫克隆选择算法引入进来。使用分裂法产生初始码书。又针对基于欧氏距离的相似性度量仅能反映聚类结果的局部一致性特征,而无法反映聚类的全局一致性的缺点,进而提出了使用基于流形距离的免疫克隆选择聚类方法,通过对31组数据的聚类以及设计实现用于自然图像压缩的基于流形距离的免疫克隆选择矢量量化码书设计对聚类效果进行验证。通过实验结果得到了提出的算法相对于其它算法具有良好的性能。