论文部分内容阅读
现如今,伴随着移动互联网技术的快速发展,计算机高速运行极大地提高了计算、逻辑判断和存储功能等方面的能力。面对电子商务和互联网金融等领域产生的大量数据,在“人工智能”的背景下,如何挖掘出内容多样、种类庞杂的海量数据里所蕴含的有用的信息成为一道迫切需要解决的难题。聚类分析是数据挖掘领域中一种无监督的学习技术,基本原理是根据数据内容将数据信息分类成簇。在分类过程中,我们只需在数据之间找到数据潜在的结构关系即可。聚类功能强大,常用于特定聚类集的审核、分析、评价,不仅能够轻易捕获数据分布信息,还可以披露簇类特征。正因为聚类分析过程中使用的技术多种多样,可以得出不同的结论,使得人工智能领域纷纷把具有无监督学习能力的聚类分析技术作为研究的热点。通常情况下,许多聚类算法面对复杂的多维数据,为了提升聚类效果,掌控全局参数,在实现期间手动设置关键参数,避开人工寻找全局参数的缺陷。本文着眼于烟花算法的改进策略,通过新型多群体协同智能算法与聚类方法相融合,实现对具有相同或相似属性的数据进行深度挖掘,形成一种新型聚类分析模型。本文的主要内容和创新点如下:(1)针对烟花算法在搜索过程中容易陷入局部极值的问题,本文通过动态搜索的方式,将原始爆炸半径公式进行了重新定义,引入了最小爆炸半径的概念,为了使算法中的爆炸半径可以通过动态变化的形式进行计算,又将当前迭代次数和最大迭代次数引入到公式当中,同时不改变原始算法相应的物理意义,保留了适应度值,使新的爆炸半径公式通过非线性递减的方式更新,从而达到在算法的早期实现更快的全局搜索,在算法的后期实现充分的局部搜索的目的。(2)针对烟花算法求解精度不高的问题,本文采用择优的方法——锦标赛选择策略进行优化。第一步圈定样本数量,第二步遴选最好的样本进入子代种群,第三步反复操作,满足新种群规模总量和大小与原种群趋于一致,使所得结果更接近预期结果,达到了求解精度更准确的目的。(3)针对密度峰值聚类算法的性能对于密度估计非常敏感,这正是选择合适截断距离(dc)的关键之处。以传统方式,dc的选择是基于主观经验的。算法在搜索非球形集簇时,在寻找合适的dc会遇到困难,尤其是当一个集群有多个密度峰值,会导致密度峰值聚类算法聚类效果不明显。在本文中,通过改进的烟花算法,利用其搜索速度快的优点,能够很好的选择适当的截断距离dc,增强了算法鲁棒性。(4)密度峰值聚类在选择聚类中心时同样也是基于主观经验的,因此本文提出一种自动确定聚类中心个数的方法,引入簇中心权值概念,通过计算簇中心权值整体下降趋势,找到趋势变化的最高点,并确定聚类中心数目。