论文部分内容阅读
聚类分析是数据挖掘的重要分支之一,引入模糊集合理论的模糊聚类分析为现实数据提供了模糊处理能力,在许多领域被广泛应用。在本文中,详细地分析了被广泛使用的DBSCAN聚类算法和K-means聚类算法的原理及其优缺点。在介绍了模糊集合的基本理论知识之后总结了模糊聚类的原则和通用的方法,并详细分析FCM算法的特点。 FCM算法是目前广泛应用的模糊聚类算法,但由于该算法是以c-均值(也即K-means算法)算法为基础,因此FCM算法也具有与c-均值算法类似的缺点,对初始聚类中心的依赖性比较强。若初始聚类中心取值不当,则算法的目标函数可能收敛到局部极小值,得不到最佳的聚类结果,有时甚至是错误的聚类结果。为了改进聚类算法的性能,避免算法因初始值的影响而收敛到局部极小值的问题本文针对聚类算法所要处理的数据特征,提出一种非线性投影寻踪方法用来确定初始聚类中心使算法收敛速度更加快速,聚类结果更加可靠。投影寻踪是一种线性的数据降维方法。本文中所述的非线性投影寻踪是一种改进的非线性的数据降维方法,该方法把二维散点图数据通过非线性映射函数映射为一维的直方图数据并保留原始数据的本质数据特征。从直方图中可以获取初始聚类中心信息,由于初始中心接近于真实的聚类中心,因此算法的收敛速度更快、结果更可靠。 通过在血液细胞分析仪上的聚类应用表明,本文所采用的通过非线性投影寻踪对散点图数据进行初步区域划分确定初始聚类中心,然后将初始聚类中心应用到模糊聚类分析中具有较好的聚类效果。