论文部分内容阅读
聚类分析是知识发现、机器学习和数据挖掘等领域的一个非常重要的基本工具。与传统的分类方法不同,聚类是在没有任何先验知识的前提下,仅根据数据间的相似性将没有标号数据集划分成不同的类(或簇),使得同一个类中的元素尽可能相似,而不同类中的元素差别尽可能大,因此聚类分析又是一个非监督学习过程。模糊聚类和Gauss混合模型是目前应用最为广泛的两种聚类分析方法,本文主要针对这两类方法中存在的一些基本问题,做了以下几个方面的研究工作:在第一章,我们对文献中存在的主要聚类分析方法做了一个全面的综述,主要分析了划分聚类方法、层次聚类方法、基于密度的聚类方法、基于网格的聚类方法以及基于模型的聚类方法中的多种算法的优缺点。第二章主要就模糊聚类方法中的FCM和PCM及其优缺点展开讨论。首先对FCM和PCM做了较为详尽的综述报告,并从理论和数值试验两个角度分析了FCM和PCM算法的不足之处,然后研究了由J S Zhang等人提出的将FCM和PCM相结合的模糊聚类算法,数值试验表明,该算法能有效地发挥FCM和PCM的优点,克服它们各自的缺点,其聚类效果比单一的FCM和PCM都更为理想。在第二章的最后部分,我们以数值试验说明了模糊球壳聚类算法FCSS不能对加有噪声的同心球壳状数据进行有效聚类,并从理论上分析了产生这一现象的原因,那就是FCSS采用的基于梯度法和交替寻优策略容易陷入局部极值点,从而影响聚类效果。因此,我们提出用遗传算法搜索FCSS目标函数的最优解,并且,为了加速遗传算法的收敛速度,我们还将原FCSS算法与遗传算法进行巧妙地结合起来,产生出所谓的基于遗传算法与FCSS相结合的模糊球壳聚类算法GA-FCSS。大量的数值试验表明,我们提出的GA-FCSS算法是有效的,它能将各种含有噪声的球壳(包括同心球壳)状数据进行很好地分离,得到的球壳中心和半径与真实值较为接近,对数据点的分类结果也几乎完全正确。第三章就基于统计模型的聚类算法展开讨论,主要选择了目前较为实用的Gauss混合模型,它是一种半参数的聚类方法。首先,我们将Gauss混合模型与聚类问题进行了类比,然后推导了求解Gauss混合模型相关参数的极大似然估计的EM算法,并以数值试验实例说明了EM算法对实心椭球状数据进行聚类是有效的。最后,我们以Gauss混合模型为基础,研究了聚类的有效性问题,即待聚类的数据中有多少个类别的问题,这在Gauss混合模型中表现为有多少个正态分支。我们主要研究了基于极小信息长度准则的MML-EM算法,该算法可以同时处理Gauss混合模型的模型选择(估计类别数)与参数估计两个问题。数值试验表明,当以接近真实值的整数初始化聚类的类别数时,MML-EM算法能以较高的正确率选择出最优类别数,但对聚类原型的估计可能出现较大偏差;当以远离真实值的整数初始化类别数时,MML-EM算法选择最优类别数的正确率迅速降低,并且有过高估计最优类别数的趋势。针对这一情况,我们从理论上重新分析了MML准则,找出了出现这样结果的原因,并提出了一种改进算法(IMML-EM)。数值试验表明,我们改进的IMML-EM算法极大地克服了原MML-EM算法的上述缺点,特别是它选择最优类别数的正确率会随着初始类别数的增加而迅速递增,这比原MML-EM算法具有更广泛的实用性,因为人们在实际的聚类问题中常常没有关于类别数的信息,只能在较大的范围内搜索最优类别数。所以,我们的IMML-EM具有更大的实用价值。