论文部分内容阅读
数据挖掘是近年来兴起的一个新的研究领域,它综合了数据库技术、人工智能、统计学等多个学科,最终目的是从大量的数据资料中发现有价值的信息和知识,即蕴涵在数据中的信息,从而达到为决策支持的目的。分类规则挖掘则是通过对训练样本数据集的学习构造分类规则的过程,是数据挖掘、知识发现的一个重要方面,其实质是希望得到高准确性、易于理解的和有趣的分类规则。遗传算法是一种基于生物进化论和分子遗传学的全局随机搜索算法。本文对基于遗传算法的分类规则挖掘进行了研究,并在此基础上,提出了基于相似度的交叉变异算子,改进了种间竞争遗传算法,并将它们应用到分类规则的挖掘中。论文首先回顾了数据挖掘的历史背景,并对数据挖掘的基本概念、过程、特点、分类及任务模式进行了详细地归纳和总结,着重讨论了分类规则挖掘的步骤、技术和方法。此后,对遗传算法的生物由来、特点和理论基础进行了概述,总结了简单遗传算法的流程,三大算子和四大关键问题,并分析和讨论了简单遗传算法应用于分类规则挖掘中存在的“早熟”收敛现象发生的原因和一般的解决方法。接着,在简单遗传算法基础上,为了克服简单遗传算法“早熟”收敛的问题,引入“相似度”和“杂交优势”思想,将原来的交叉和变异两个算子合二为一,提出了一个新的遗传算子:基于相似度的交叉变异算子,并利用Breast cancer data数据集对其进行了算法测试。最后,改进了种间竞争算法,并利用adult数据集对其进行了算法测试。