论文部分内容阅读
提出了一种有效选择初始聚类中心的算法CNICC.该算法参考了网格聚类算法的思路.划分数据空间为相应维度上的网格单元,然后根据实例的分布情况确定初始聚类中心.从二阶差分的概念出发,CNICC定义了网格单元的一阶邻居和二阶邻居,算法根据每个网格单元的一阶和二阶邻居的局部密度变化寻找包含聚类中心的网格单元.在人工数据集上进行的实验表明,与现有初始化聚类中心的方法相比,CNICC能够有效减少K-means算法的迭代次数,提升聚类精度.同时,随着数据集实例数、维度和网格单元数量的增加,算法的时间复杂度呈线性增加.