论文部分内容阅读
随着互联网和电子商务的急速发展,需要处理的数据量也是急速增长。面对海量的数据,数据挖掘技术应运而生,它涉及了机器学习、模式识别、统计学、人工智能等多门学科。数据挖掘技术实现难度大,技术含量高,更注重于从海量数据中发现隐含的知识的可伸缩性。聚类分析是数据挖掘领域中一种重要的方法,而模糊C均值(FCM)聚类算法是聚类分析中应用最为广泛的算法,面对当今海量的待聚类数据,FCM聚类算法的缺点尤为突出,主要表现为:数据量大时FCM算法收敛速度较慢;聚类数目需要事先人为给定,具有很大的不确定性;对噪声数据敏感,抗噪性能差。针对FCM算法的以上缺点,本文就FCM聚类算法及改进算法进行了分析及结合。基于模糊熵约束的FCM聚类算法,进一步分析了加入相对熵约束的FCM聚类算法,该方法将相对熵作为调节函数加入目标函数中,最大化不同类之间的相异度,而且具有对噪声数据点分配低隶属度值的能力,从而有效的抑制了噪声数据对聚类中心的影响,并且加入相对熵系数θ,用来调节相对熵的重要程度,以适应不同用户的需求。同时,在此算法中加入了魏立梅提出的对手抑制式方法,加快了算法的收敛速度;此外,针对聚类数目需要事先人为给定的缺点,加入聚类有效性函数,实现了聚类数目的自动优选。最后,将结合后的算法在MATLAB平台上进行仿真实现,数据集使用简单数据集、二维数据集、三维数据集、IRIS数据集,并与传统的FCM算法、基于模糊熵的FCM算法进行比较。实验证明:结合后的FCM算法不但在抗噪性能方面有很大的提高,而且收敛速度得到了提升,并能自动确定出最佳的聚类数目。传统FCM聚类算法的时间复杂度为O(nc2p),结合后的FCM算法的时间复杂度为O(nc3p)+O(2nc2log(nc))+O(nc)。复杂度有所增加,但对于相对熵约束的FCM算法中的Lambert-W函数W0(.),在MATLAB中可直接调用,计算较为简单。