论文部分内容阅读
高维问题是模式识别和机器学习领域中的一个重要问题。严重的特征冗余和高噪音是高维数据分析难度增大的根本原因。大量冗余特征和噪声不仅会导致数据分析的计算时间成本急剧增加,而且会使数据分析方法的泛化性能受到负面的影响。此外,大量冗余特征下出现的特征共线性相关还有可能导致高维数据分析中的模型选择错误。特征选择(选维)和特征提取(降维)能够有效处理高维数据中存在的这些问题,它们已经成为高维数据分析中不可缺少的重要组成部分。随着高维数据在不同领域的迅速增长,高维数据特征选择方法的研究越来越受到重视,特别是更加高效的方法。 针对高维多类别问题,本文使用基于相关性分析的模型研究了几种有效的新特征选择方法。本文的主要工作和创新点如下: 1、提出了基于最大化相关信息的特征选择方法(MCI-RFE)。该方法通过最大化特征空间与类别编码空间之间的相关关系去评估每个特征的重要性,越重要的特征对相关关系的贡献越大。MCI-RFE可以快速(具有较低的时间复杂度)删除无关特征并去除冗余,能有效提高分类器的分类识别性能。 2、提出了基于特征空间的若干正交成分上投影重要性的特征选择方法偏最大相关信息(PMCI)。该方法根据特征空间与类别编码空间的相关度从特征空间中抽取若干正交成分用于评价特征的重要性,多成分的提取旨在提高特征选择算法的鲁棒性并增加对噪音的抵抗力。 3、在偏最大相关信息(PMCI)的基础上引入递归特征消除(RFE)策略,给出了基于偏最大相关信息的特征选择方法(PMC I-RFE)。实验表明,算法PMCI-RFE对于多类别高维数据具有较好的计算效率,RFE能有效消除冗余特征使得在特征子集规模更小时达到最佳识别性能,同时,统计检验也显示PMCI-RFE方法具有很好的鲁棒性。 所提方法在蛋白质结构类别识别和微阵列数据分类识别上得到有效性验证。所提方法能被用于高维生物数据分析,辅助生物医学信息挖掘。本文的方法也可以用于其它领域的高维数据分析问题。