基于特征选择的数据降维算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:dzxt720
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机技术的飞速发展使得我们所获得的信息呈现爆炸式的增长,有调查显示,人类近半个世纪以来获得的数据量是以往漫长人类历史上获得数据的总和,我们正处在大数据的包围之中。这些数据通常都是高维的,数据维度的膨胀为后续的计算任务带来了巨大的负担,将会导致维数灾难。为了有效地从这些数据中获得有价值的信息,特征选择和数据降维等一系列机器学习算法便应运而生,并且逐渐成为研究热点之一。数据降维方法的基本思路:在输入空间中对样本数据进行某种变换操作,将高维样本数据映射到低维空间中,最终在低维度空间得到关于原数据空间的低维表示。目前,数据降维已成为机器学习、数据挖掘、人工智能以及计算机视觉中的重要方法。本文在ReliefF特征选择算法的基础上,融合了两种不同的数据降维算法和子模优化的性质,研究了基于特征选择的数据降维算法在文本和图像特征选取中的应用。本论文研究的主要内容和创新点:(1)提出了基于PCA-ICA和ReliefF相结合的用于人脸图像特征选取的方法。考虑到PCA算法不能保留人脸图像的高阶信息的缺点,本文在对人脸图像处理中,先使用ReliefF算法进行最优特征子集选择,经过PCA降维,再应用ICA对降维之后的数据进行处理,并将两次数据降维算法操作后的图像特征集合送入到分类器进行训练,最终的实验结果证明选取的特征子集用于图像的分类效果比ASU上提供的特征选择算法提取的特征子集效果较好。(2)提出了基于子模优化的特征选择方法用于文本特征选取。首先将文本特征集进行预处理,然后利用子模函数最大化求解的性质,通过贪心算法选出最终的特征子集用来做分类训练,最终的实验结果证明该特征子集用于文本特征提取效果比ASU上提供的特征选择算法提取的特征子集效果较好。
其他文献
近年来,传统类型的能源枯竭以及生态环境遭到人为损坏等问题已日益严重。因此,以分布式能源发电技术为首的新技术得到迅速发展,由小型分布式电源构成的微电网成为目前的一个研究热点。但随着越来越多的分布式发电设备开始与配电网相连,一些问题也开始凸现出来。一是运行时要产生很多数据进行统计、计算,二是其有自主、独立的控制方式,这也让目前传统的由上级统一调度、控制的方法束手无策。由此,文章采用了Multi-Age
移动通信迅速发展,5G(Fifth-Generation)移动通信的研究正如火如荼。大规模 MIMO(Massive multiple-input multiple-output,Massive MIMO),作为 5G中的关键技术之一,近几年受
粮食存储是粮食安全的重要环节,每年由于不当的监管导致粮食在存储环节损耗不容小觑,因此做好科学储粮显得尤为重要。随着通信、电子技术在粮仓现场中的应用,数字化粮情测控
车载自组织网络是无线ad hoc网络在车载环境下的应用。它的主要目的是提高行车的安全性,有效性和舒适性。   无线信道媒体接入控制(Medium Access Control,MAC)机制是车载自
手机短信具有使用方便、价格便宜的特点,是中国手机用户普遍接受的通讯方式。近年来,随着移动通信技术的发展和手机用户数的增长,短信业务也得到了迅速发展,但与此同时垃圾短
伴随着移动无线通信技术的快速发展,许多新兴网络不断涌现出来,如星际网络、陆地移动Ad hoc网络、军事网络、无线传感器网络,它们不同于传统的基于TCP/IP协议的网络,无端到端