论文部分内容阅读
随着数据库技术的不断发展及数据库管理系统的广泛应用使得各组织机构积累了海量数据,为了从中提取有用信息,更好地利用这些数据资源,人们提出了数据挖掘技术。数据挖掘技术将传统的数据分析方法与处理大量数据的复杂算法相结合,是目前信息领域和数据库技术的前沿研究课题。聚类分析技术是数据挖掘的主要方法,它将数据划分成有意义或有用的组(簇),在众多的聚类分析算法中,模糊聚类算法是当前研究的热点。本文对其中最经典的模糊c-均值(FCM)算法进行了深入研究,并对它加以改进和优化,实验验证了方法的可行性和有效性。本文系统分析了FCM算法和马氏距离的基本原理,从而利用马氏距离的优点来弥补FCM算法中存在的缺陷,其次利用优化的KPCA进行特征提取,本文从三个方面对FCM算法进行了改进。首先,经典的模糊c-均值(FCM)算法是基于欧氏距离的,它只适用于球型结构的聚类,且在处理属性高相关的数据集时,分错率增加。针对这个问题,提出了一种新的聚类算法(FCM-M),它将马氏距离替代模糊c-均值中的欧氏距离,并在目标函数中引进一个协方差矩阵的调节因子,利用马氏距离的优点,有效地解决了FCM算法中的缺陷,并利用特征值,特征矢量及伪逆运算来解决马氏距离中遇到的奇异问题。其次,经典的模糊c-均值算法认为样本矢量各特征对聚类结果贡献均匀,没有考虑不同的属性特征对模式分类的不同影响,且在处理属性高相关的数据集时,该算法分错率增加。针对这些问题,提出了一种基于马氏距离特征加权的模糊聚类算法,利用自适应马氏距离的优点对特征加权处理,从而对高属性相关的数据集进行更有效的分类。最后,利用核函数主元分析(KPCA)方法对大样本,高维数据进行特征提取预处理,并结合文化算法(CA)选择最优或接近最优的核函数,将其用于模糊c-均值(FCM)聚类中,不但有效地提取了样本的非线性信息,而且使样本维数得到约简。利用MATLAB语言实现上述方法,并进行了UCI数据集聚类和图像分割两组实验,从实验结果看,均达到预期效果。