论文部分内容阅读
KT均值聚类是经常使用的一种数据聚类方法,但对大数据量情形,其聚类过程较慢,主要原因在于聚类过程中每个待聚类向量要反复进行一个最近邻搜索过程,以寻找与其距离最近的聚类中心;据此,文章提出使用扩展的部分失真搜索(Extended Partial Distonion Search,EPDS)来完成该最近邻搜索,极大地减少了完成聚类所需乘法次数。实验表明,相对于基本的K均值聚类算法,该方法可以节约1/3以上的计算量。