论文部分内容阅读
计算机技术的飞速发展使得我们所获得的信息呈现爆炸式的增长,有调查显示,人类近半个世纪以来获得的数据量是以往漫长人类历史上获得数据的总和,我们正处在大数据的包围之中。这些数据通常都是高维的,数据维度的膨胀为后续的计算任务带来了巨大的负担,将会导致维数灾难。为了有效地从这些数据中获得有价值的信息,特征选择和数据降维等一系列机器学习算法便应运而生,并且逐渐成为研究热点之一。数据降维方法的基本思路:在输入空间中对样本数据进行某种变换操作,将高维样本数据映射到低维空间中,最终在低维度空间得到关于原数据空间的低维表示。目前,数据降维已成为机器学习、数据挖掘、人工智能以及计算机视觉中的重要方法。本文在ReliefF特征选择算法的基础上,融合了两种不同的数据降维算法和子模优化的性质,研究了基于特征选择的数据降维算法在文本和图像特征选取中的应用。本论文研究的主要内容和创新点:(1)提出了基于PCA-ICA和ReliefF相结合的用于人脸图像特征选取的方法。考虑到PCA算法不能保留人脸图像的高阶信息的缺点,本文在对人脸图像处理中,先使用ReliefF算法进行最优特征子集选择,经过PCA降维,再应用ICA对降维之后的数据进行处理,并将两次数据降维算法操作后的图像特征集合送入到分类器进行训练,最终的实验结果证明选取的特征子集用于图像的分类效果比ASU上提供的特征选择算法提取的特征子集效果较好。(2)提出了基于子模优化的特征选择方法用于文本特征选取。首先将文本特征集进行预处理,然后利用子模函数最大化求解的性质,通过贪心算法选出最终的特征子集用来做分类训练,最终的实验结果证明该特征子集用于文本特征提取效果比ASU上提供的特征选择算法提取的特征子集效果较好。