K-means聚类算法的改进与应用

论文部分内容阅读

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。
　　K-means算法是众多聚类算法中最热门的算法之一，此算法是基于划分的无监督聚类算法。原始的K-means算法存在着各种各样的不足，比如:在每次迭代中需要计算所有数据点到聚类中心的距离，计算量非常的繁杂。在处理某些带初始类别的数据时，由于此算法为无监督的算法，在聚类过程中不会考虑初始类别对聚类的影响，结果得不到满足人们需求的聚类等等，这些不足严重影响了聚类分析的质量与效率。
　　本文在K-means算法的研究基础上，将该算法进行改进。提出了两种改进算法并且利用改进的算法处理了一系列的数据集。聚类中心迁移算法，该算法通过利用前后两次迭代中聚类中心的位移，来判断在当前迭代中距离数据点X最近的n个聚类中心，来减少聚类算法的计算时间。并且详细分析了该算法的距离计算量和时间复杂度。将该算法应用于图片数据集聚类中，证明了聚类中心迁移算法提高了聚类的效率，降低了计算的复杂度。本文提出的CK-means算法可以有效地处理已经有了初步类别的数据集，该算法是一种有监督的聚类算法，CK-means算法的优势在于它与无监督的K-means算法的计算时间相差不多（CK-means算法用时比K-means算法的稍多），但是比有监督的聚类算法的计算时间少，其聚类质量要比K-means和有监督的聚类算法好很多，也就是说CK-means算法提高了聚类的性价比。本算法也应用在了很多经典数据集聚类中，展示了CK-means算法的优势之处。
　　最后，叙述了本篇论文的主要工作，并指出进一步的研究方向。

与本文相关的学术论文