论文部分内容阅读
聚类是模式识别、机器学习和图像处理等领域的重要研究内容。聚类分析已经成为聚类领域的研究热点,受到了国内外学者的广泛关注。其中,模糊聚类由于引进模糊集概念,能够有效处理现实中的模糊性问题,已经成为聚类分析中不可或缺的一部分。模糊C-均值聚类算法(Fuzzy C-Means,FCM)是模糊聚类最常用的实现算法之一。FCM算法设计简单,运行效率高,可以有效地处理大数据集,在模糊聚类算法中占据非常重要的地位,但是该算法在某些方面还存在一些欠缺,比如需要预先给定最佳聚类数、不同的模糊度m会导致不同的聚类数结果等缺陷。针对以上缺点,目前主要通过聚类有效性进行验证,以判断聚类结果的好坏。聚类有效性分析主要通过提出合适的聚类有效性指标,作为算法的判断依据,但是现有的聚类有效性指标大多数只能处理分离性较好的数据集,对于噪声污染以及多类型结构并存的数据集,无法有效地做出正确判断。因此,本文从多角度分析,寻找更加合适的聚类有效性指标,使得FCM算法能够在无人工干预的情况下,有效地处理不同结构类型的数据集。本文主要研究工作如下:(1)本文首先针对现有聚类有效性指标在含有噪声与重叠的数据集上无法有效判断最佳聚类数的缺陷,提出了一种新的聚类有效性指标,简称W指标。该指标从紧凑度、分离度、重叠度三个重要特征进行测量。其中,W指标的紧凑度使用数据子类两两之间的距离,分离度使用最小隶属度,重叠度使用两个类隶属度平方的乘积进行定义,从多个方面反映了数据集的分布情况,在一定程度上避免了噪声与重叠数据对聚类结果的干扰。实验结果表明,所提出的指标能够有效地对聚类结果进行评估,并能够克服噪声与重叠数据集的影响,准确地确定样本最佳聚类数。最后,在不同模糊度m下的鲁棒性测试实验中,W有效性指标展现出比较好的鲁棒性。(2)基于上述指标进一步深入研究,发现现有的大多数模糊聚类有效性指标一般过于依赖聚类质心,使得在含有紧邻类与小类的数据集上无法准确地进行判断。为了缓解这种问题,提出了WS聚类有效性指标。WS指标通过使用最大最小隶属度法则与数据集模糊偏差,在一定程度上改善了指标过于依赖聚类中心的缺陷,全面考虑了数据集的整体信息。WS指标不仅能够避免将紧邻类误判为同一类,同时不会忽略小类的存在,展现出比较好的准确性。实验结果表明,在包含紧邻类与大小、密度差异大的数据集上,WS指标能够在不同模糊度m下,准确地找到数据集的最佳聚类数,完成有效性聚类。(3)最后,将提出的WS指标与FCM图像分割算法相结合,提出一种灰度图像自动分割算法。实验结果表明,该算法能够准确地获取图像的最佳分割数,从而高效、快速地完成图像自动分割。