论文部分内容阅读
数据挖掘作为数据库中知识发现过程的一个基本步骤,它是从丰富的,不完整的,模糊的和随机的数据中提取有用的信息和知识的过程。而聚类是数据挖掘中无监督机器学习方法之一,可以对没有类标的数据集进行分析。随着信息科技的快速发展,数据规模越来越庞大,数据类型越来越趋向于多元化,传统的聚类算法已经不能有效地解决现有的问题。本文通过对人工免疫网络聚类算法进行改进,提出了基于流形距离的免疫调节网络聚类算法,提高了算法的聚类精度。并且结合BIRCH算法和量子免疫机制,使得算法能够有效地处理大规模数据集。本文具体工作如下: (1)首先我们提出了基于流形距离的免疫调节网络聚类算法,引入了刺激调节因子,用它代替人工免疫网络中的克隆算子和变异算子,通过免疫调节机制选择具有高刺激调节因子的抗体,并且利用流形距离计算亲和度。这样不仅解决了人工免疫网络算法对噪声敏感的问题,同时解决了改进的人工免疫网络聚类算法对流形分布的数据集和真实数据集聚类效果较差的问题。在对比实验中,本文提出的算法在人工数据集和 UCI数据集上都得到了较好的聚类结果,证明了提出的算法具有良好的聚类性能。 (2)针对免疫调节网络算法不能很好地处理大规模数据集的问题,提出了基于免疫调节网络的大规模数据聚类算法。此算法结合BIRCH算法和免疫调节网络聚类算法,首先利用BIRCH算法对原始数据集进行初次分类,将规模很大的原始数据集划分为含有不同数量样本点的子类,提取各个子类的中心点,将这些较小规模的中心点集合作为新的数据集,然后利用免疫调节网络聚类算法对其进行聚类。这样的结合不仅解决了免疫调节网络由于计算复杂度和空间复杂度高不适用于大规模数据集的问题,而且解决了BIRCH算法需要聚类类别数和不能很好地处理分布复杂的真实数据集的问题。在对比试验中可以看出我们提出的算法具有较好的聚类性能。 (3)最后,为了降低参数对算法的影响和提高算法的聚类精确度,提出了基于量子人工免疫网络的大规模数据聚类算法。在改进人工免疫网络的同时引入了量子克隆,量子变异,量子交叉算子,有效地避免了算法陷入局部最优解和早熟现象。并且通过改进BIRCH算法使其可以自适应地获得自然死亡阈值,降低了算法对参数的敏感性。然后与基于免疫调节网络的大规模数据聚类算法进行了对比,验证了提出的基于量子人工免疫网络的算法不仅能够得到更好的聚类结果,而且大大降低了算法参数的影响。