基于多粒度-粒球划分的快速k-means聚类算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:lxfa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
k-means算法是机器学习中一种经典的被广泛应用的无监督学习算法。k-means算法在处理大规模聚类场景下的效率提升具有重要研究价值,本文为提升k-means算法在大数据场景下的效率提出了两种改进方案,第一种是基于粒球划分的精确kmeans加速算法,第二种是基于近邻信息的近似k-means加速算法。本文提出的第一种改进k-means算法称为Ball k-means,是一种精确加速算法,通过粒球模型来描述一个簇类。该算法主要通过减少数据点与聚类中心之间的不必要的距离计算从而达到降低运行时间来提高效率的目的。该算法中的近邻搜索方式可以准确地为每个粒球找到其近邻粒球,从而使得一个数据样本点仅仅需要计算到其相邻近的粒球的聚类中心的距离;此外,每个粒球还可以被划分为“稳定域”和“活动域”,而“活动域”可以进一步划分为许多“环形域”。“稳定域”中的数据点在当前迭代轮次中不会更改,而“环形域”中的点在当前迭代轮次中将在一些近邻粒球之间进行调整;另外,还设计了一种方法来降低每轮迭代中粒球球心之间的欧式距离计算;针对k-means算法在后期迭代过程中越来越多的粒球会逐渐趋于“不变”,本文提出了一种方法能够找到这些粒球,并证明了这些粒球不需要重新建立粒球,粒球里面的数据样本不需要参与本轮迭代中的分配步骤;最后,通过理论分析和在真实数据集以及人工合成的数据集上的实验结果表明,该算法的性能优于最新的精确加速k-means算法,尤其是在处理大k聚类问题时。Ball k-means算法设计简单、无需额外参数使其能够完全替代Lloyd k-means算法。在某些应用中,对于聚类结果的质量要求不高,即允许部分的聚类结果不准确,但需要快速得到聚类结果。因此,本文提出了第二种基于近邻信息的快速近似kmeans聚类算法。基于观察发现,在k-means迭代过程中,每个粒球中的数据样本只在其周围邻近的粒球范围之间调整。为此,本文通过一种局部化策略来将k-means算法的分配步骤中参与的粒球缩小到一个较小的范围;此外,为了维稳所提出算法的聚类质量,本文还提出了一种新的近邻更新方式,将近邻的近邻当作候选近邻,进而在后续迭代轮次中用候选近邻粒球来进行k-means算法的分配步骤,从而避免了维持最初的近邻关系导致最终聚类结果的质量损失。最后,在真实数据集中验证本算法的有效性,在多个数据集的时间性能上相对于Lloyd k-means算法达到了成百上千倍的加速,而平均仅有1.10%左右的聚类质量损失。本文提出了两种快速高效的k-means聚类方法,为大规模聚类场景下的快速聚类需求提供了两种不同的解决方案。
其他文献
通信电源对通信设备来说是必不可少的,通信电源一般都是高效率的开关电源。开关电源将交流电转换为直流电的方式一般是先对交流电进行桥式整流,然后利用大电解电容进行滤波得
近几十年来移动机器人领域受到日益增多的重视,相关研究得到长足发展。现在机器人已经应用到各种领域中,如军事、工农业、日常生活等,来完成一些繁重及难以完成的工作,这也对
随着癌症类型的增多和癌症患者规模的增多,针对癌症的研究不断深入。同时,由于基因组学的发展,基因芯片和基因测序技术逐渐成熟,运用基因表达谱对癌症的分类预测和靶标确定的
近年来视觉SLAM被广泛应用于各种机器人任务场景当中,日渐复杂的视觉任务对场景模型表达语义信息的能力提出了更高的需求。由于深度学习方法在视觉领域呈现的有效性,许多研究
相干光正交频分复用(Coherent Optical Orthogonal Frequency Division Multiplexing,CO-OFDM)技术将相干光通信和OFDM技术融合起来,在频谱效率和抗色散等方面优势明显,满足
数码科技的迅猛发展对纸质媒体的发展造成了一定的市场冲击,但中国图书零售市场销额依然呈现逐年上升的趋势,纸质媒体的盈利空间依然存在,其中儿童图书销量占28%。将电子技术
细胞核因子κB(NF-κB)在炎症相关肿瘤的发生发展中发挥了核心调节的作用。在前期的研究中,本实验室筛选了一系列能够靶向调节NF-κB信号通路的miRNA(microRNA,miRNA)。在这
相较于以往的马克思主义者,柄谷行人所讨论的共产主义的独特性体现在其基于一种“交换”的视野。在他所阐述的“交换样式理论”中,从交换样式A到交换样式D,柄谷行人以“交换样式”取代“生产方式”,对社会历史的构成体做出了从过去、现在到未来的阐发,并在交换样式D中揭示了共产主义的可能性。在马克思的社会批判理论及其康德哲学的影响下,柄谷行人建立起了“跨越性批判”的哲学反思态度,在康德式批判和马克思式批判之间往
绝缘子是电力网络中重要的组成部分,承担着线路支撑和将载流导体与地之间形成良好绝缘的任务;同时,绝缘子的故障发生几率较高,其污秽、裂纹、破损会影响线路的正常运行,严重
频谱感知的主要目的是在复杂的无线通信环境中精准且迅速地检测出频谱空穴,为非授权用户接入空闲的授权信道提供合理的途径。因此,频谱感知被普遍认为是认知无线电技术的基石