论文部分内容阅读
数据挖掘中的分类与聚类问题一直都是研究的热点,因为它们贴近实际生活,能为人们提供各种应用模型。近年来对分类和聚类的研究也从纵向研究逐渐转变为横向研究,即与其他算法进行融合,利用其他算法优势和特性来完成分类和聚类的目的。在大数据时代背景下,数据挖掘中的分类与聚类问题也将会越来越受到人们的关注,正所谓“物以类聚,人以群分”。基因表达式编程是由葡萄牙进化生物学家Ferreira提出的,它开创性的融合了遗传算法和遗传编程的优点,使其具有广阔的搜索能力和无穷的变化性。它的应用十分广泛,涉及生物,数学,计算机应用,物理等科学领域。本文基于基因表达式编程的分类与聚类研究,是将数据挖掘中的规则分类和K-means聚类算法,分别与基因表达式编程算法相结合,利用基因表达式编程的进化的特性及全局搜索能力,继而完成规则分类和聚类的研究。两种算法的融合,能够互相取长补短,为数据挖掘领域输入新思想,为基因表达式编程算法的应用又添新的一笔。本文的主要工作包括如下方面:1.将基因表达式编程用于挖掘规则,从而对使用规则的问题进行分类。首先,针对规则分类问题,设计出了一种新形式的染色体终端符号,引入规则的正确率作为适应度函数度量;其次将适应度由高到低排序,建立备选规则集;最后通过使用基因表达式编程挖掘Monk与Acute Inflammations中的规则,利用挖掘出的规则对数据集进行分类。实验表明基于基因表达式编程的挖掘规则分类算法的准确率会高于传统的分类算法。2.提出基于基因表达式编程的K-means聚类分析,该方法是对基于基因表达式编程的自动聚类算法的一种改进。首先,在基于基因表达式编程的自动聚类算法的基础上,对染色体的编码及解码进行了适当的改进,能够避免无效染色体的出现。其次在算法中加入了最优簇数目选取算法,并引用了K-means算法中的迭代重定位方法,使得到的聚类簇数目更加准确,直观有效的提高了聚类的效果。最后通过对150个二维点的聚类,实验表明了基于基因表达式编程的K-means聚类算法正确率高,收敛速度更快。