基于最大化相关信息的高维数据特征选择方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:gongchp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维问题是模式识别和机器学习领域中的一个重要问题。严重的特征冗余和高噪音是高维数据分析难度增大的根本原因。大量冗余特征和噪声不仅会导致数据分析的计算时间成本急剧增加,而且会使数据分析方法的泛化性能受到负面的影响。此外,大量冗余特征下出现的特征共线性相关还有可能导致高维数据分析中的模型选择错误。特征选择(选维)和特征提取(降维)能够有效处理高维数据中存在的这些问题,它们已经成为高维数据分析中不可缺少的重要组成部分。随着高维数据在不同领域的迅速增长,高维数据特征选择方法的研究越来越受到重视,特别是更加高效的方法。  针对高维多类别问题,本文使用基于相关性分析的模型研究了几种有效的新特征选择方法。本文的主要工作和创新点如下:  1、提出了基于最大化相关信息的特征选择方法(MCI-RFE)。该方法通过最大化特征空间与类别编码空间之间的相关关系去评估每个特征的重要性,越重要的特征对相关关系的贡献越大。MCI-RFE可以快速(具有较低的时间复杂度)删除无关特征并去除冗余,能有效提高分类器的分类识别性能。  2、提出了基于特征空间的若干正交成分上投影重要性的特征选择方法偏最大相关信息(PMCI)。该方法根据特征空间与类别编码空间的相关度从特征空间中抽取若干正交成分用于评价特征的重要性,多成分的提取旨在提高特征选择算法的鲁棒性并增加对噪音的抵抗力。  3、在偏最大相关信息(PMCI)的基础上引入递归特征消除(RFE)策略,给出了基于偏最大相关信息的特征选择方法(PMC I-RFE)。实验表明,算法PMCI-RFE对于多类别高维数据具有较好的计算效率,RFE能有效消除冗余特征使得在特征子集规模更小时达到最佳识别性能,同时,统计检验也显示PMCI-RFE方法具有很好的鲁棒性。  所提方法在蛋白质结构类别识别和微阵列数据分类识别上得到有效性验证。所提方法能被用于高维生物数据分析,辅助生物医学信息挖掘。本文的方法也可以用于其它领域的高维数据分析问题。
其他文献
油气包括石油和天然气,是易燃易爆物品.因此在油气运输中,通常将油气与一些稳定的物质放在一起进行运输,这样能够避免油气与氧气接触发生氧化反应,提高油气运输的安全性.利用
加油站油气若直接排放至大气中会造成环境污染.本文简要阐述油气回收系统以及三次油气回收方法,并整合此类油气回收系统的设计原则,针对新建以及改造的加油站,给出相应的工艺
天然气输气站场是天然气运输管道的重要组成部分,在天然气的运输过程中扮演着重要角色.在实际应用中,天然气输气站场的维护和管理是输气站场风险管理的重要手段,本文基于输气
化工业是一个高风险行业,经常发生安全事故.生产过程中任何不当操作都会对公司的经济和员工的人身安全造成一定程度的损害.化学品安全设计既是化工企业的安全保障,也对有效防
在现代化城市建设进程中,进一步加快城市基础设施发展对于提升城市的服务水平有着重要的促进作用.目前,就城市燃气工程实施而言,注重燃气管道的设计施工管理具有重要的现实意
本课题以“控制理论与控制工程”学科实验室建设项目为背景,将控制理论与控制工程有机结合设计了一种过程控制综合实验装置。该装置主要以液位为研究对象,不仅具有强大的实验功
异戊二烯是生产橡胶的重要化工原料之一,在国内和国外对该产品的需求量较大.基于此,本文分别就利用异戊烷制异戊二烯生产技术现状及市场展开分析,论述分离法、两步脱氢法、一