论文部分内容阅读
近年来,随着信息技术的飞速发展,人们积累的数据急剧增长。数据挖掘提供了从大型数据库中自动抽取潜在的有用信息的方法。进化计算作为一种新的智能优化技术,已广泛运用于数据挖掘任务中。本论文针对数据挖掘中的复杂分类任务,应用混合进化、多目标进化以及遗传规划技术,对分类规则学习、遗传规划分类和特征选择问题进行了深入系统的研究。主要研究内容和创新性工作包括:(1)介绍了数据挖掘技术的主要方法和研究热点,评述了分类任务中的主要问题和研究进展,概括了进化计算理论基础、整体框架以及最新研究进展。(2)提出了基于混合进化算法的模糊分类器学习算法。该算法采用全新的小生境技术保持种群的多样性,通过单次运行进化算法获得模糊分类器所需的所有规则;此外,算法针对进化算法较弱的局部优化能力,使用了一种模糊规则局部搜索方法,能有效的提高模糊规则的适应值。实验表明,局部搜索方法在进化过程中能够有效的提高整个种群的适应值,算法能获得低复杂度、高预测精度的模糊分类器。(3)提出了基于遗传规划的判别分类算法。基于遗传规划的分类算法能够很好的处理两分类问题,然而在处理多分类问题时具有一定的局限性。针对多分类任务,提出了一种新的遗传规划分类模型——判别分类模型;新模型以最小化误差平方为优化目标,能够产生高预测精度的分类器。为了进一步提高预测精度,还提出了判别分类模型的集成算法。实验结果表明,判别分类模型具有较强的样本分类能力,集成算法能进一步有效的提高模型的预测精度。(4)提出了基于多目标进化计算的特征选择算法。在特征选择任务中,需要考虑两个重要因素:特征相关度与特征冗余度。在分析了基于互信息的启发式特征选择算法的基础上,提出了一种新的特征冗余度计算方法,采用与类别相关的互信息评价特征子集的内部冗余信息;然后使用多目标进化算法完成特征子集相关度最大化与冗余度最小化的优化任务。实验结果表明,将新冗余度应用于启发式特征选择算法中,能够提高被选特征子集的质量;而多目标进化算法能够克服传统启发式算法的局限,获得判别能力更强的特征子集。