基于特征提取的特征选择研究

被引量 : 0次 | 上传用户:danyuhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在许多现实问题中,如人脸识别、文本分类、图像检索等,维数约简是一个不可缺少的步骤。而特征选择和特征提取是两种最常用的维数约简方法。特征选择是指从原始空间中挑选特征,得到由原始特征组成的特征子集,而特征提取是对特征空间进行变换,将原始特征空间映射到低维空间中。目前大部分研究都是将特征选择与特征提取独立开来,本文以特征提取的典型方法主成分分析(Principal Component Analysis,PCA)和线性判别分析(Linear Discriminant Analysis,LDA)为主,将特征提取与特征选择结合起来进行研究,利用二者各自的长处去进行维数约简,设计与提出基于主成分分析的特征选择算法和基于线性判别分析的高维特征选择算法。基于主成分分析的特征选择算法的思想是建立在这样的基础上:主成分分析方法将原始特征通过线性变换映射到新的低维特征空间时,获得的主成分失去了物理意义,难以理解,并且主成分是所有原始特征的线性组合;此外由于特征选择是直接寻找有实际意义的特征,并且能减少计算开支。因此本文将主成分分析与特征选择相结合,使用一种基于K近邻规则的新方法,同时设计多种相似性度量准则,通过找到与主成分相关的关键特征或者删除冗余、不相关以及没有意义的特征将主成分又重新映射到原始空间,来理解主成分的实际意义,并在标准数据集分类以及人脸识别上进行了对比实验。基于线性判别分析的高维特征选择将单个特征的Fisher准则与其他特征选择算法相结合,分层消除不相关特征与冗余特征。不相关特征过滤器按照每个特征的Fisher评价值进行特征排序,来去除噪音和不相关特征;通过对高维数据特征关联性的分析,冗余特征过滤器选用冗余度量方法和基于相关性的快速过滤器(Fast Correlation Based Filter)算法。作者分别在四种公共数据集和包含不同姿势、表情和背景的人脸库上进行了数据分类与性别分类实验,验证分层过滤模型处理高维数据的性能。
其他文献
战略联盟作为企业组织关系的制度创新,已成为现代企业强化竞争优势的重要手段,但在实践中战略联盟的失败率却较高.在对战略联盟的含义、特征和类型阐述的基础上,深入分析了导
近些年,西部地区农民专业合作组织呈现出较快的发展势头,主要表现在组织规模及构成、组织成员规模及构成、带动非成员农户的规模,以及内部交易特征方面的变化上。本文在数据
针对故障诊断中的测试序列优化问题,提出一种改进蚁群算法的解决方法。该方法根据二值属性系统的特点,定义状态集向量及测试向量,将故障测试隔离过程转化为向量的位运算过程,
改革开放四十年来经济快速发展,城市居民劳动条件和生活条件得到改善,闲暇时间增多,使得城市居民的休闲体育健身及体育文化娱乐消费需求日益增长。经过大量有关城市居民体育
<正>姜夔(约1155年—约1209年),字尧章,号白石道人,饶州鄱阳(今江西省鄱阳县)人。南宋著名词人。兼通诗、词、散文、书法、音乐。现存词84首,多写恋情和咏物,也有对时事的感
为评价指端光电容积脉搏波的变化用于监测患者全麻诱导期伤害性应激反应的可行性和准确性,采用择期行耳鼻喉或颅脑外科手术,ASA分级I~II级,18~60岁的患者75人,分别于入室时(T1
摘要:农用地分等成果构建了全国农用地系统内部相对质量差异的梯级,但具体每个梯级的绝对值水平尚不明确。产能核算是农用地分等成果深化和运用,通过农用地理论产能、可实现产能
水电站的电气二次设备安装质量直接关系到投运后电气设备的安全以及电站的效益,二次设备的安装过程中必须加以有效控制。笔者根据多年相关工作经验,主要就水电站电气二次设备
土地是人类最基本的生产和生活资料,为人类社会的发展提供了坚实的物质基础。随着城镇化和工业化的快速发展,不同用地之问的矛盾也越来越尖锐,因此,如何更加合理地利用土地资
借助耦合协调度模型对1989-2008年宝鸡市经济与环境系统的耦合协调度进行定量分析.结果表明:(1)宝鸡市经济系统综合发展水平呈阶段性上升,而环境系统综合发展水平变化相对平