群体智能优化的聚类算法及模型研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:asd2303690
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,伴随着移动互联网技术的快速发展,计算机高速运行极大地提高了计算、逻辑判断和存储功能等方面的能力。面对电子商务和互联网金融等领域产生的大量数据,在“人工智能”的背景下,如何挖掘出内容多样、种类庞杂的海量数据里所蕴含的有用的信息成为一道迫切需要解决的难题。聚类分析是数据挖掘领域中一种无监督的学习技术,基本原理是根据数据内容将数据信息分类成簇。在分类过程中,我们只需在数据之间找到数据潜在的结构关系即可。聚类功能强大,常用于特定聚类集的审核、分析、评价,不仅能够轻易捕获数据分布信息,还可以披露簇类特征。正因为聚类分析过程中使用的技术多种多样,可以得出不同的结论,使得人工智能领域纷纷把具有无监督学习能力的聚类分析技术作为研究的热点。通常情况下,许多聚类算法面对复杂的多维数据,为了提升聚类效果,掌控全局参数,在实现期间手动设置关键参数,避开人工寻找全局参数的缺陷。本文着眼于烟花算法的改进策略,通过新型多群体协同智能算法与聚类方法相融合,实现对具有相同或相似属性的数据进行深度挖掘,形成一种新型聚类分析模型。本文的主要内容和创新点如下:(1)针对烟花算法在搜索过程中容易陷入局部极值的问题,本文通过动态搜索的方式,将原始爆炸半径公式进行了重新定义,引入了最小爆炸半径的概念,为了使算法中的爆炸半径可以通过动态变化的形式进行计算,又将当前迭代次数和最大迭代次数引入到公式当中,同时不改变原始算法相应的物理意义,保留了适应度值,使新的爆炸半径公式通过非线性递减的方式更新,从而达到在算法的早期实现更快的全局搜索,在算法的后期实现充分的局部搜索的目的。(2)针对烟花算法求解精度不高的问题,本文采用择优的方法——锦标赛选择策略进行优化。第一步圈定样本数量,第二步遴选最好的样本进入子代种群,第三步反复操作,满足新种群规模总量和大小与原种群趋于一致,使所得结果更接近预期结果,达到了求解精度更准确的目的。(3)针对密度峰值聚类算法的性能对于密度估计非常敏感,这正是选择合适截断距离(dc)的关键之处。以传统方式,dc的选择是基于主观经验的。算法在搜索非球形集簇时,在寻找合适的dc会遇到困难,尤其是当一个集群有多个密度峰值,会导致密度峰值聚类算法聚类效果不明显。在本文中,通过改进的烟花算法,利用其搜索速度快的优点,能够很好的选择适当的截断距离dc,增强了算法鲁棒性。(4)密度峰值聚类在选择聚类中心时同样也是基于主观经验的,因此本文提出一种自动确定聚类中心个数的方法,引入簇中心权值概念,通过计算簇中心权值整体下降趋势,找到趋势变化的最高点,并确定聚类中心数目。
其他文献
手性是自然界普遍存在的现象,不同构型的手性分子可能产生不同的作用。氨基酸作为一种常见的手性化合物,除甘氨酸不具手性外,其余氨基酸均以L-构型存在于生物体内;而D-型氨基
本文主要研究了一些波动方程(组)初边值问题行波解的构造,依次对有限区间上的带有Neumann边界波动方程初边值问题的行波解与带有耦合初边值问题线性波动方程组的行波解进行了
生物质作为一种可再生资源,在近年来吸引了越来越多人的研究和关注,其中生物质中主要包含纤维素,半纤维素和木质素。木质素约占生物质总量的15-30%,由大量的芳香结构基元通过
随着我国经济的飞速发展以及科技水平的不断提高,城市化的进程不断加快,绿化用地也愈发紧张,为保障城市的生态环境,提高人们生活场所的舒适性,各种新型绿化呼之欲出,运用到绿
气候敏感度是衡量全球温度变化和温室气体浓度变化关系的重要指标。目前,对瞬时气候响应(TCR,或称气候敏感度)的模拟存在较多的不确定性。本文从海洋热吸收变化的角度讨论海
随着经济全球化,贸易自由化的不断深入,金融机构间的联系越来越紧密。金融网络在壮大的同时也使得金融危机发生的更加迅速。在金融危机期间大量的基金产品会发生巨大的回撤,
本文从单井地层划分入手,通过大量的钻井、化验等资料,利用井震结合准确标定层位,精细刻画断层,实现断层合理组合,分析构造发育史,提高构造图精度。在此基础上,通过单井沉积
高性能计算(HPC)通常是使用一定数量的处理器或通过网络管理集群中的若干台计算机这样的环境来对问题进行计算。并行计算是解决高性能计算问题的其中一种方式,它能让多条指令
本文在SOC可重用设计方法学的理论基础上,提出了基于IP核的可视化设计方法。该设计方法包括可视化IP核管理、可视化IP核调用、可视化IP核配置和可视化模块连接,同时提出了IP
河口沙洲是重要的湿地资源,对于沙洲面积的估算及其演变一直是人们关心的问题。但由于河口地区复杂的动力因素,海洋测绘难以获取河口沙洲Om线海图基面,并且耗时较长、花费昂