论文部分内容阅读
随着计算机科学领域中数据挖掘和机器学习方向上探索和研究的不断推进,面对日益增长的数据集规模,如何在降低计算成本的基础之上仍旧保持优异的算法性能成为至关重要的问题。特征选择,其目标在于合理降低数据集维度,并且使选择的子集拥有不亚于甚至更优于原数据集的算法性能。在分类算法中,为获取更优质的类别区分性能,特征选择采用最本质的方法就是在原特征集合中将无关的及冗余的特征剔除,从庞大的初始特征集中选择出对类别最具表征性的特征,将其加入特征子集。用于特征选择的方式数不胜数,近些年,通过进化计算的方式进行特征选择获得了学术界广泛关注,并且成绩斐然。森林优化算法(Forest Optimization Algorithm,FOA)是模拟自然界的树木播种的方法的进化计算理论。初始用来解决连续型最优问题,而后在机器学习相关领域学者的优化和改良后,森林优化算法演化成为了解决离散化的特征选择问题的FSFOA算法(Feature Select using Forest Optimization Algorithm)。本文在FSFOA算法的基础之上,提出了SFSFOA算法(Strengthen Feature Selection using Forest Optimization Algorithm),该算法主要针对FSFOA算法的不足之处分别提出强化播种,劣质树衰减和优势树杂交三个优化策略,并在低中高三个维度的数据集中分别进行实验,证明SFSFOA算法不仅在准确度方面有进一步的提升,且在维度缩减方面也有可观的改善。特征选择的方法的分类可以根据评估准则进行划分为Filter和Wrapper两种类型,Filter方法的相对于Wrapper方法的优势在于计算复杂度小,计算成本低,处理高维数据效率更高;而Wrapper方法以学习结果为导向,分类性能更高。SFSFOA算法与FSFOA算法同属于Wrapper方法,故而同样存在Wrapper方法计算成本过高的缺点。因此,本文提出了一种WFFSFOA(Wrapper and Filter based on Feature Select using Forest Optimization Algorithm)算法,在SFSFOA的基础之上有效的Filter和Wrapper两类特征选择方法优点进行整合,并进行相关实验,实验结果表明,相对于传统FSFOA算法,WFFSFOA算法既能保证算法准确度,又能显著降低计算成本,提高算法收敛性能。