K均值算法中初始聚类中心的确定问题研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:zhanglicg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类方法是最重要的数据挖掘方法之一,K-means更是因其简洁有效的特点成为用途最广的聚类算法之一。然而,该算法的表现高度依赖于初始聚类中心的选取。而如果初始聚类中心选取不当,则很容易陷入局部最优解而造成聚类效果不佳。基于此,国内外许多学者提出了诸多改进方法,但其中大多数方法都不能动态适应不同特点的数据集。事实上,现实中的数据集具有各自不同的特点。因此,提出一种具有自适应性的初始聚类中心选取方法具有很重要的意义。本文根据目前的研究现状,主要进行了以下工作:(1)以往较多的初始聚类中心选取方法中都对数据点密度给出了定义,但其定义方法使得数据点密度具有较小的区分度。针对此问题,本文提出了一种基于邻域模型的密度定义方法,该方法可以有效地增加数据点密度的区分度。(2)初始聚类中心的选取对于K-means算法最终的聚类效果起着决定性作用。为此,大量文献都提出了针对此问题的解决方法,但这些方法往往只在部分数据集上取得良好的效果,而不具有动态适应性。真实世界中的数据集特点各异,提出一种能够动态适应不同特点数据集的初始聚类中心选取方法具有很重要的意义。为此,本文提出了一种新的距离度量——混合距离,并基于混合距离模型提出了一种带有参数λ的初始聚类中心选取方法。实验结果表明,该方法较以往的初始聚类中心选取方法更能有效地提高K-means聚类精度。(3)在参数λ的调整下,聚类结果具有若干种,但在正确类标未知的情况下去确定哪种为最佳聚类结果值得进一步探讨。为此,本文提出了一种新的基于邻点模型的内部聚类评价指标CVN。我们运用聚类指标CVN去确定最佳的聚类结果,其有效性优于应用较为广泛的其他几种内部聚类评价指标。
其他文献
浅析了加强德育在小学《道德与法治》课程教学中应用的必要性,探究了加强德育在小学《道德与法治》课程教学中实践应用的措施,以期为德育在小学《道德与法治》课教学中的实践
为了更好地总结现代烟草农业建设在新农村中的作用,分析和总结了"一基四化"在农村建设、农业生产和农民收入方面的作用。结果表明:现代烟草农业建设在改善农村交通、村容村貌、
目的:研究不同充填剂对根面龋治疗的微渗漏影响.方法:选择30个离体磨牙,用Dyract复合体,银汞合金,FujiII玻璃离子水门汀对根面龋进行充填治疗随机分为三组,对样本进行冷热循环
<正> 高中物理牛顿第三定律“研究作用力与反作用力”的演示实验,可做如下改进,使实验操作简单方便。演示装置是由一只透明有机玻璃槽和8根截短的玻璃管组成(尺寸见附图)。有