论文部分内容阅读
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,被信息产业界认为是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科。聚类分析是数据挖掘的一个重要研究领域。聚类分析的目的就是将数据库中的数据划分成具有一定意义的子类,使得不同子类中的数据尽可能不同,而同一子类中的数据尽可能相似。它在商业、生物、医学、地质、web文档等方面都有重要的应用,是当前的研究热点问题之一。 本文我们在仔细研究分析当前的聚类分析方法的基础上,把基于蚂蚁的聚类算法,与密度的聚类算法思想——“聚类是这样的区域,区域中的点的密度大于与之相邻的区域。”相结合,提出了基于密度思想的蚂蚁聚类算法。在该算法中,蚂蚁在二维网格空间中不断的搬运数据对象,比较它们之间的相似性,把相似性大的数据对象放到一起,不相似的数据对象移开,达到了聚类分析的结果,并把聚类结果作为K-Means的初始聚类中心,用K-Means算法对数据进一步进行聚类分析,加快算法的收敛性。同时,在一开始充分考虑数据集中数据对象本身的属性,使蚂蚁在搬运数据对象的过程中,避免一些不必要的移动,只把密度较低区域中的数据对象指定到相应的类中,使蚂蚁在搜索数据时具有启发性,提高了算法的效率。该算法还保持蚂蚁聚类算法的优点:利用蚂蚁算法的随机性,避免聚类分析过程陷入局部最优,初始中心由基于蚂蚁聚类算法得到,避免了K—Means等算法对初始值的敏感性的缺点。把基于密度的聚类思想运用到蚂蚁聚类算法中,是本文的创新点。 我们通过理论分析,和对一些数据进行实验,表明基于密度思想的蚂蚁聚类算法的运行时间大大优于原有的蚂蚁聚类算法,而且最后的聚类质量也达到了令人满意的效果。