论文部分内容阅读
模式识别是现代常见的信息处理技术,已广泛应用在图像处理,语音识别等领域,并展现了巨大的潜力。随着信息获取越来越容易,表征事物的数据维数也越来越高,造成了“维数灾难”。在模式识别的分类问题中,特征选择是分析高维数据最有效的方法之一。特征选择最主要的两个步骤是子集产生模块和子集评估模块,其本质上是一个优化问题。通过在原始特征中选出最有效的特征子集,去除大量的冗余和不相关特征信息的干扰,不仅能够降低存储空间,还可以提高分类识别的精度与效率。因此,针对特征选择问题的优化算法层出不穷。 集成学习也是近年来模式识别研究的热点。通过提高个体分类器的精度,增加个体分类器之间的差异,可以有效的提高集成学习的能力,而特征选择是提高个体分类器精度及增加个体分类器间差异的有效方法。因此,当我们进行集成学习时,我们可以选出若干组有效的特征子集,使得用每组特征子集训练而成的个体分类器具有较高的精度,同时个体分类器之间具有一定的差异。此时,本文将在集成学习中求得多组特征子集的特征选择问题看作是牺牲了小数部分精度的,求多个最优解的多模态优化问题。 本文将集成学习中的特征选择问题看作多模态最优化问题的特例。在对其研究状况进行分析的基础上,本文提出了一个基于自适应小生境的多模态进化算法,并通过函数优化的仿真实验,比较分析了算法的性能。 本文的主要研究工作包括: (1)简要介绍特征选择的基本理论,包括特征选择的基本概念、主流的方法及其各自的优缺点。将集成分类中的特征选择问题转化为多模态最优化问题。 (2)分析了多模态最优化问题主要的解决方法,重点关注小生境进化算法。通过对融入进化算法的不同的小生境模型进行研究,概述了其优缺点。 (3)针对集成分类中的特征选择问题,提出了一个基于自适应小生境的多模态最优化进化算法,用于找出多组特征子集进行集成学习。算法通过制定相关规则,有效快速地找到种子,以此将种群分成若干个子种群,同时动态地将计算资源分配给不同的子种群。通过在一个标准函数集合上进行仿真实验,比较验证了算法的性能,实验结果表明该算法具有更好的多峰搜索能力。 (4)尝试将所提出的启发式算法应用于集成学习中的分类问题,针对高维数据的特征选择问题,以损失小数部分的精度为代价,找出多组特征集,用于训练多个分类器,完成分类器的集成分类。本文使用了多个UCI数据集进行仿真实验,实验结果显示了算法能够同时找到多组特征子集,由每组特征子集训练而成的分类器都具有高分类准确率,使得集成分类效果有显著的提升。 (5)最后,对全文的研究工作进行了总结。