论文部分内容阅读
随着大数据时代的到来和人工智能的逐渐成熟,寻求分析和利用大规模原始数据并从中发掘价值信息的方式是学术界的研究重点。聚类技术在数据挖掘中占据重要地位,由海量数据中获取数据潜在内部结构是当下人工智能领域的重点研究任务。截至目前,无监督学习领域主要包括两类最具竞争力聚类技术,一是密度峰值聚类(Clustering by Fast Search and Find of Density Peaks,DPC)算法,二是基于密度带有噪声的空间聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)算法。但上述算法依然有一定不足:(1)采取密度峰值聚类算法时必须通过手动设置截断距离参数;(2)密度峰值聚类算法需手动圈出聚类中心点;(3)基于密度带有噪声的空间聚类算法存在全局参数聚类半径Eps需人工设定的问题。结合以上问题,对其提出针对性整改意见:(1)采取基于密度带有噪声的空间聚类算法时,必须通过人工设定获取全局参数聚类半径Eps,对于该问题提出一种改进的基于密度带有噪声空间聚类(Improved Density-Based Spatial Clustering of Applications with Noise,CS-DBSCAN)算法,利用布谷鸟搜索算法具有快速求解全局优化问题的能力,提高算法的聚类性能。(2)采取密度峰值聚类算法时,必须通过手动方式对截断距离参数进行设置,此时可利用基于密度最大值的密度峰值聚类(Density Peak Clustering Based on Maximum Density,Max-DPC)算法。该算法引入具有密度最大值样本点到密度极小值样本点距离作为截断值的改进思想,避免人为设置截断距离的同时,以此提升聚类算法性能。(3)采取密度峰值聚类算法时,必须借助手动方式完成的既包括设置截断距离参数,还包括圈出聚类中心点,提出一种基于截断距离和簇中心点自动选择策略的密度峰值聚类算法(Density Peak Clustering Algorithm Based on Choosing Strategy Automatically for Cut-off Distance and Cluster Center,CSA-DPC)。在改进方案(2)的基础上,根据可能成为聚类中心点之间的相似度变化情况确定聚类中心点,也使得聚类结果变得更加精确。(4)针对基于密度带有噪声的空间聚类算法的聚类半径Eps需人工设定的问题和密度峰值聚类算法需手动圈出聚类中心点的双重问题,提出基于蝙蝠优化聚类的再聚类算法(Re-clustering Algorithm Based on Bat Optimized Clustering and Its Applications,BA-DPC)。通过引入蝙蝠优化算法,让改进后的DBSCAN聚类算法先获得初始聚类结果,然后根据初始聚类结果自动选取DPC算法的聚类中心,以避免人为参与聚类中心的选取,且产生更优的聚类结果。