论文部分内容阅读
数据挖掘是一门从纷繁复杂的数据集中挖掘有用信息的技术,人类社会从二十世纪进入信息爆炸时代以来大量数据信息产生,信息数量的激增在带来商业、文化和科学技术飞速发展的同时,也给人类获取有用信息带来了麻烦,于是数据挖掘在这种形式下产生了。经过学者们多年的努力,数据挖掘技术越来越成熟,应用范围也越来越广泛,并产生了多个分支,聚类分析更是其中的佼佼者。
聚类分析是数据挖掘中研究与应用较为成功的一门挖掘技术。现实世界中应用的多样性与数据的复杂性给聚类分析带来了极大的麻烦,某一类型的数据往往对应一种特定的算法,大部分算法不具备普遍应用性。近些年来,学者们通过对蚂蚁群体性行为的研究提出了蚁群聚类算法,相对于传统聚类分析算法该算法可以处理的数据类型具有多样性,并且可以发现任意形状的簇,无需过多的人为指导,算法的健壮性也较高。但是作为一种模拟生物进化的算法,它的缺陷也是极为明显的,算法运行需要耗费大量的时间。因此在本文中试图将其与一种成熟的传统聚类分析算法进行结合以便通过二者的优势互补来达到较好的聚类效果。在本文中选取的传统聚类算法是模糊C-均值聚类算法。
模糊聚类算法是一种非常成熟的聚类分析方法,它的基础是函数最优化方法,利用了数学理论中的微积分计算技术。它对现实世界的反映采取一种较为客观的态度,这使得模糊聚类被广泛的应用于图像分割、模式识别、大规模数据分析等领域。模糊聚类算法种类有很多,而模糊C-均值即FCM算法是这些算法中较有代表性的一个,它在现实社会中也有着十分广泛的应用且非常成功。该算法简单、运行速度快,但在算法运行初要设置簇的个数及聚类中心等参数,这导致算法受到人为的影响很大。
混合聚类是通过研究不同的聚类算法并将两种或多种聚类算法进行结合,该种算法通过各种算法优势互补,获得更加优秀的聚类效果。本文将蚁堆聚类算法和模糊C-均值聚类算法进行结合,并对原始的蚁堆算法进行了一系列的改进,以便适应于新的混合聚类算法。蚁堆算法改进主要包括三个部分,均是针对该算法耗费时间长的缺陷进行改进的。
首先,算法中删减了原始算法中蚂蚁三种速度的设定,保留一种速度,以便尽快完成初始聚类。其次,新算法中对数据对象在二维数组中的位置进行了保存,这样蚂蚁在寻找数据对象时就可以避免空跳、节省时间了。最后,对蚂蚁卸载数据对象的策略上也进行了修改,以便使得适合的数据放在适合的位置。
新算法最后针对UCI机器学习库的公开数据进行了实验,实验结果表明这种新型混合算法是有效的,能够提高聚类结果的质量。但该算法仍然需要耗费较长的时间,主要原因存在于蚁堆聚类部分,虽然本文中已对蚁堆聚类进行了一系列改进,使得相对于原始蚁堆聚类算法时间效率上有所提高,但该算法仍然具有改进的空间,下一步工作是针对蚁堆聚类算法收敛速度慢的缺点进行进一步改进,以便使算法具有更好的效率,并尝试将其他算法的思想加入其中,探索算法改进的新途径。