论文部分内容阅读
群居的昆虫具有很好的群体智能,蚁群算法正是从此仿生学的机理中受到启发而提出的一种进化算法或元启发(metahueristic)算法。它可以很好地解决并优化许多复杂的问题,得到了广泛的应用。本文主要研究应用蚁群算法解决数据挖掘领域中的各种问题。我们介绍了蚁群算法求解问题的优越性,分析了当前国内外在数据挖掘各任务解决上的各种算法,从而提出了利用蚁群算法的特点来解决数据挖掘中的聚类问题、分类问题以及关联规则发现方面的有效的方法。在聚类方面,我们分析了当前存在的经典聚类算法以及一些基于蚂蚁堆积尸体行为的蚂蚁聚类模型,在BM和LF模型中,蚂蚁是作为搬运工,通过“pick up”和“drop down”的行为将数据搬运到合适的地点形成聚类,形成了最初的蚂蚁聚类思路。通过研究,我们提出了两种自适应的聚类算法。首先,我们设计了蚂蚁活动/睡眠聚类模型ASCM,该模型中,蚂蚁作为数据的携带者从而改进了BM和LF模型。蚂蚁通过活动、睡眠两种状态不断将数据聚集成类,算法取得了很好的实验结果。其次,我们通过分析蚁群系统中蚂蚁的特点,将蚂蚁作为相似数据的连接者,提出了一种更为简单的基于有向图的自适应蚂蚁聚类算法A3CD。我们将蚂蚁在搜索过程中的信息素作为聚类标准,设计初始信息素有向图,加强蚂蚁搜索的正反馈,在算法中对信息素有向图不断的更新,加入自适应的参数,加快算法执行,最后在一定的阈值下获取该有向图的强连通分量作为聚类。实验结果显示,与当前的经典聚类算法比较,我们的算法具有自组织、自适应、高效率、聚类质量高等特点。对于分类问题,我们也分析了当前存在的不同的分类方法,如基于经典决策树方法的C4.5算法,以及一些基于蚁群算法的分类模型和改进算法,如Ant-Miner1,Ant-Miner2等等。这些都是针对分类规则的提取来解决数据库中数据集分类问题的,针对分类问题的特点和蚁群算法的并行化优势,我们提出了分类规则的自适应的并行挖掘模型及算法CRPA。在算法中,我们结合了蚁群算法的原理和并行化策略,利用total-class个处理机及蚂蚁群对total-class个类的数据集进行分类规则的并行挖掘。并将属性与属性值的选择分离,将剪枝过程融入算法执行中,对