论文部分内容阅读
快速K-medoids算法通过计算样本密度,选择前K个位于样本分布密集区的样本为初始聚类中心,并采用各类簇中距离该簇其他样本距离和最小的样本更新类簇中心,改进了传统K-medoids算法的聚类效果,节省了聚类时间,然而该算法存在密度计算复杂耗时和初始聚类中心可能位于同一类簇的缺陷.基于邻域的K-medoids算法提出邻域概念,选择位于不同样本分布密集区域的样本为初始聚类中心,改进了快速K-medoids算法的初始聚类中心可能位于同一类簇的缺陷,但是其邻域半径需要人为给定一个调节系数,缺少客观性.本文针对快速K-medoids和基于邻域的K-medoids算法的上述缺陷,分别以距离均值和相应样本的标准差为邻域半径,以方差作为样本分布密集程度的度量,选取方差值最小且其间距离不低于邻域半径的样本为K-medoids的初始聚类中心,提出两种方差优化初始中心的K-medoids算法.UCI数据集和人工模拟数据集的实验表明,本文算法花费较少时间即可得到结构更加紧密的类簇,且适用于大规模数据集的聚类.