聚类分析中聚类数的确定问题

被引量 : 0次 | 上传用户:bufegar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类就是按照事物间的相似性进行区分和分类的过程,在这一过程中没有教师指导,因此是一种无监督分类。聚类分析则是用数学方法研究和处理所给对象的分类以及各类之间的亲疏程度,是在对数据不作任何假设的条件下进行分析的工具。在人工智能和模式识别中,聚类分析亦称为“无先验学习”,是机器学习中知识获取的重要环节。“物以类聚,人以群分”,聚类是一个古老的问题,它伴随着人类社会的产生和发展而不断深化,人类要认识世界就必须区分不同的事物并认识事物间的相以性。聚类已被广泛地应用于各种工程和科学领域,如心理学、生物学、医学、通讯和远程感应等。 人们根据不同领域的需要,提出了各种不同的聚类方法,其中最受欢迎的是目标聚类法,但是他们大多是假设在给定聚类数的前提下,根据待聚类样本的属性,优化类中心或隶属度,将它们划分到各个类中。这有点类似于系统辨识中,假设系统结构确定,来进行参数估计一样。至于聚类数的确定问题,要么未给出答案,要么使用穷举法。因此现在的问题是我们能否比较方便地直接确定聚类数,而不需任何假设。这将是本文所主要讨论的问题。 就迭代最优化方法而言,最重要的是选取适当的聚类准则和类间相似性度量。但是,在此方面,人们已经做了很多有意义的工作,所以本文将在前人的基础上选择一个恰当的聚类准则函数,以便在无任何假设条件的前提下比较简单地直接确定聚类数。另外,由于迭代最优化方法是一种爬山法,所以难免会收敛到局部极值,因此如何解决该问题也是本文将讨论。 本文考虑如下聚类准则函数: 武汉科技大学硕士论文 。 lllfl LAI=y > 11.IIX-X 11 lflllX M=llll IIX X 11 其中包括经典的类内加权平方误差和准则函数。并证明了该优化问题 是聚类数的一个单峰函数,可分两层实现:外层用黄大分别法,内层 用K一均值聚类算法和具有最优保存策略的遗传算法。之所以将:二者 结合在一起,是回为K一均值算法是一种爬山法,容易收敛到冈部极 小值,对初始条件较敏感,但收敛速度较快,而遗传算法是 卞dl随机 搜索算法,能够以较大概率找到全局最忧解,且对们始条件个敏感, 但收敛速度较慢。 本文的仿真表明使用该准则函数及此种实现方式能在无仟何假 设条件的情况下,比较方匣、直接地确定聚类数,丘所得的结果优于 另外两种准则函数。
其他文献
"资金管理"是商业银行经营的主线。离开这一主线,银行就易于偏离其目标,内部管理就会混乱。本文在剖析商业银行现资金管理观念、体制缺陷基础上,提出了资金是商业银行经营主线的
版权赋予作者排除他人任意使用其作品的权利,这种权利随作品的完成而自动产生。快速发展的国际互联网将我们带入了网络时代,伴随着信息的高速传递,版权制度受到巨大的冲击。在爆
本文简要介绍了茶多酚(Tea-polyphenols,TP)的组成、结构、性质、应用及其提取理论,研究了茶多酚新的提取工艺:(1)确定了非水溶剂浸提TP的工艺条件,并对其在水溶液中的抗氧化性进行了
自从市场经济产生以来,有关政府在经济发展中的作用问题就一直为各时代的经济学家所关注的焦点,并成为各个经济流派不断探索、阐述和争论的重要话题。二战以来,世界格局发生了重
放射治疗作为治疗恶性肿瘤的重要手段之一,它比外科手术治疗、内科化疗等方法更依赖于医学影像及其它医学信息。各种高科技技术及计算机的应用,使得放射治疗设备不断更新,功能更
<正>文[1]用极坐标法求解一类二元最值问题,具有普遍性,给人一种统一美的感受.但客观地讲,对于许多二元最值问题而言,用极坐标法并非最好,而用代数换元法效果会更佳.实际上,
期刊
蔬菜是人类直接食用的作物之一,随着人们健康意识的提高,无公害蔬菜的开发逐渐成为人们的热门话题。但目前的无公害蔬菜关注农药与硝酸盐较多,而对重金属的关心较少,重金属是一种
2008年金融危机的爆发给全球经济造成巨大损害,学术界在深究危机背后原因的过程中逐渐提出了货币政策银行风险承担传导渠道理论,研究者认为低利率货币政策的实施是造成此次危
本文运用普遍性的教学原理,结合现代教育技术,对高师音乐教育中的必修的音乐理论课之一曲式与作品分析这一具体学科的教学进行了研究。全方分为三个部分,其主要内容是: 第一部
重载路面结构研究主要是针对重载交通而言的。本课题针对这种亟待解决的问题,结合宣大高速公路设计的工程实际,通过调查、分析,对重载作用下的沥青路面与水泥路面的荷载图式、破