论文部分内容阅读
随着科学技术的发展,各行各业每天处理的数据量呈指数增长,数据的维度越来越大。而这些数据中存在着大量的冗余、不相关的特征,这些特征给机器学习、模式识别和数据挖掘带来了巨大的挑战。学习算法在处理高维数据的情况下,往往会碰到性能问题。特征选择作为解决这个问题的有效手段一直都被广泛的关注。在特征选择方法的发展过程中,涌现了许多有效的优化算法,而森林优化算法(FOA)就是其中的一种新兴的方法。森林优化算法受大自然森林演变过程启发而来,该算法模拟森林演变过程。它具有简单、易实现、收敛速度快和搜索效率高等特点。虽然基于森林优化算法在解决特征选择问题上取得了较为满意的结果,但是仍然存在着一些不足。本文是在所提出不足的基础之上,对基于森林优化算法的特征选择算法(FSFOA)进行改进。本文主要做了一下的研究工作:首先,提出改进的基于森林优化算法特征选择。该方法引入了一种贡献度的策略嵌入在森林优化算法中。其主要目的是引导森林优算法根据类相关性和特征冗余度去搜索最优解,从而提高了森林优化算法在特征选择问题中的搜索效率。其次,根据当前树和当前全局最优树的关系,提出了距离自适应策略。该策略能够有效地快速地引导算法搜索最优树,加快了算法的收敛速度。为了避免算法陷入局部最优解,对适应度函数进行了改进,这使得森林优化算法在选择特征的时候不仅考虑了整个特征子集的表现,而且还考虑了特征子集中每个特征的质量。我们从UCI数据集中选择了 10个常用于验证算法有效性的数据集,并与近年一些特征选择算法进行了实验对比。实验结果表明我们所提出算法要优于这些特征选择的方法。其次,提出了一种局部搜索策略的森林优化算法的特征选择。该方法利用局部搜索策略引导森林优算法在搜索最优树的过程中尽可能多的选择高质量的特征和尽可能多的剔除低质量的特征,从而很大程度上保证森林中每个特征子集具有较高的质量并且提高了算法的搜索效率。为了在初始化阶段森林中所有的树都处于较为理想的位置,利用特征子集大小确定机制对森林进行初始化,该策略能够保证在初始化阶段森林中每个特征子集所选的特征数量相对较少,从而很大程度上加快了算法的搜索效率。最后,实验结果证明了我们所提出算法的有效性。