融合蚁堆聚类与模糊C-均值聚类的算法研究和分析

来源 :安徽大学 | 被引量 : 2次 | 上传用户:fhzh508508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一门从纷繁复杂的数据集中挖掘有用信息的技术,人类社会从二十世纪进入信息爆炸时代以来大量数据信息产生,信息数量的激增在带来商业、文化和科学技术飞速发展的同时,也给人类获取有用信息带来了麻烦,于是数据挖掘在这种形式下产生了。经过学者们多年的努力,数据挖掘技术越来越成熟,应用范围也越来越广泛,并产生了多个分支,聚类分析更是其中的佼佼者。   聚类分析是数据挖掘中研究与应用较为成功的一门挖掘技术。现实世界中应用的多样性与数据的复杂性给聚类分析带来了极大的麻烦,某一类型的数据往往对应一种特定的算法,大部分算法不具备普遍应用性。近些年来,学者们通过对蚂蚁群体性行为的研究提出了蚁群聚类算法,相对于传统聚类分析算法该算法可以处理的数据类型具有多样性,并且可以发现任意形状的簇,无需过多的人为指导,算法的健壮性也较高。但是作为一种模拟生物进化的算法,它的缺陷也是极为明显的,算法运行需要耗费大量的时间。因此在本文中试图将其与一种成熟的传统聚类分析算法进行结合以便通过二者的优势互补来达到较好的聚类效果。在本文中选取的传统聚类算法是模糊C-均值聚类算法。   模糊聚类算法是一种非常成熟的聚类分析方法,它的基础是函数最优化方法,利用了数学理论中的微积分计算技术。它对现实世界的反映采取一种较为客观的态度,这使得模糊聚类被广泛的应用于图像分割、模式识别、大规模数据分析等领域。模糊聚类算法种类有很多,而模糊C-均值即FCM算法是这些算法中较有代表性的一个,它在现实社会中也有着十分广泛的应用且非常成功。该算法简单、运行速度快,但在算法运行初要设置簇的个数及聚类中心等参数,这导致算法受到人为的影响很大。   混合聚类是通过研究不同的聚类算法并将两种或多种聚类算法进行结合,该种算法通过各种算法优势互补,获得更加优秀的聚类效果。本文将蚁堆聚类算法和模糊C-均值聚类算法进行结合,并对原始的蚁堆算法进行了一系列的改进,以便适应于新的混合聚类算法。蚁堆算法改进主要包括三个部分,均是针对该算法耗费时间长的缺陷进行改进的。   首先,算法中删减了原始算法中蚂蚁三种速度的设定,保留一种速度,以便尽快完成初始聚类。其次,新算法中对数据对象在二维数组中的位置进行了保存,这样蚂蚁在寻找数据对象时就可以避免空跳、节省时间了。最后,对蚂蚁卸载数据对象的策略上也进行了修改,以便使得适合的数据放在适合的位置。   新算法最后针对UCI机器学习库的公开数据进行了实验,实验结果表明这种新型混合算法是有效的,能够提高聚类结果的质量。但该算法仍然需要耗费较长的时间,主要原因存在于蚁堆聚类部分,虽然本文中已对蚁堆聚类进行了一系列改进,使得相对于原始蚁堆聚类算法时间效率上有所提高,但该算法仍然具有改进的空间,下一步工作是针对蚁堆聚类算法收敛速度慢的缺点进行进一步改进,以便使算法具有更好的效率,并尝试将其他算法的思想加入其中,探索算法改进的新途径。
其他文献
我国是自然灾害多发的国家,每年都会因自然灾害造成国家和人民生命财产的重大损失。鉴于自然灾害的突发性和临时性特点,救援物资在紧急情况下的安全快速运输和供应保障是减灾和
现代密码学发展至今,无论在理论研究还是实际应用方面都已取得极大的成功。现代密码学是以密钥的完备保密性为前提的。然而,现实世界中诸多称之为“边信道”攻击以及病毒等,
我国光照资源丰富,为替代消耗的传统化石能源,国家制定政策鼓励开发太阳能。目前,国家大力发展光伏电站的建设,但光伏组件中电池单元却面临在光照、温度等外界条件不佳状态下难以突破发电的局限性,同时,光伏发电系统中功率器件的使用、电力网用户侧非线性负载比例的增加等都加重了公共电网谐波污染和无功消耗问题。应用在光伏发电系统的逆变器和有源滤波器两种设备在功能、结构、控制方法等方面相似,所以为提高光伏发电系统输
自由曲线曲面造型技术一直是计算机图形学和计算机辅助设计的重点,在计算机动画、计算机游戏、人机交互及虚拟现实应用中起重要作用。曲面参数化的好坏很大程度上影响曲面纹
随着网络技术的发展,网络环境下的计算越来越重要。由于网络的分布式特点,参与计算的各方通常隶属于不同的机构,因此对网络计算各方的输入数据的隐私保护尤为重要。网络环境下分
近年来移动adhoc网络(Mobile Ad Hoc Network,MANET)由于在战场、灾难救援、交通监视和环境监测等方面的应用而受到研究界广泛的关注。虚拟骨干网的构建与维护以及能量有效的路
航空运输对发展国民经济和促进国际交往具有重要意义。我国民航事业正处在高速发展时期,与此同时终端区面临的航班拥堵问题也日益突出。飞机着陆调度(AircraftLandingScheduli
空间分割算法在计算机图形学中占据重要地位。本文分别针对层次划分结构中的八叉树和非层次划分结构中的Voronoi图在GPU上进行了高效的实现。并且将GPU端的八叉树建立方法应
无线传感器网络能够获取客观物理世界的信息,并且集信息获取、处理与传输为一体,近年来广泛应用于军事监测、环境和栖息地的监测、火灾探测、目标跟踪、工农业控制、危险区域远
陨石坑是陨石体高速运动撞击地表或其他天体表面之后所形成的坑穴。这种坑穴的重要性源于其丰富的信息,这些信息描述了它们的分布以及其产生的形态。因此,陨石坑在行星探测方面