论文部分内容阅读
聚类就是按照事物间的相似性进行区分和分类的过程,在这一过程中没有教师指导,因此是一种无监督分类。聚类分析则是用数学方法研究和处理所给对象的分类以及各类之间的亲疏程度,是在对数据不作任何假设的条件下进行分析的工具。在人工智能和模式识别中,聚类分析亦称为“无先验学习”,是机器学习中知识获取的重要环节。“物以类聚,人以群分”,聚类是一个古老的问题,它伴随着人类社会的产生和发展而不断深化,人类要认识世界就必须区分不同的事物并认识事物间的相以性。聚类已被广泛地应用于各种工程和科学领域,如心理学、生物学、医学、通讯和远程感应等。 人们根据不同领域的需要,提出了各种不同的聚类方法,其中最受欢迎的是目标聚类法,但是他们大多是假设在给定聚类数的前提下,根据待聚类样本的属性,优化类中心或隶属度,将它们划分到各个类中。这有点类似于系统辨识中,假设系统结构确定,来进行参数估计一样。至于聚类数的确定问题,要么未给出答案,要么使用穷举法。因此现在的问题是我们能否比较方便地直接确定聚类数,而不需任何假设。这将是本文所主要讨论的问题。 就迭代最优化方法而言,最重要的是选取适当的聚类准则和类间相似性度量。但是,在此方面,人们已经做了很多有意义的工作,所以本文将在前人的基础上选择一个恰当的聚类准则函数,以便在无任何假设条件的前提下比较简单地直接确定聚类数。另外,由于迭代最优化方法是一种爬山法,所以难免会收敛到局部极值,因此如何解决该问题也是本文将讨论。 本文考虑如下聚类准则函数: 武汉科技大学硕士论文 。 lllfl LAI=y > 11.IIX-X 11 lflllX M=llll IIX X 11 其中包括经典的类内加权平方误差和准则函数。并证明了该优化问题 是聚类数的一个单峰函数,可分两层实现:外层用黄大分别法,内层 用K一均值聚类算法和具有最优保存策略的遗传算法。之所以将:二者 结合在一起,是回为K一均值算法是一种爬山法,容易收敛到冈部极 小值,对初始条件较敏感,但收敛速度较快,而遗传算法是 卞dl随机 搜索算法,能够以较大概率找到全局最忧解,且对们始条件个敏感, 但收敛速度较慢。 本文的仿真表明使用该准则函数及此种实现方式能在无仟何假 设条件的情况下,比较方匣、直接地确定聚类数,丘所得的结果优于 另外两种准则函数。