论文部分内容阅读
在这个数据日益增长的时代,各类电子设备在每时每刻都会产生或多或少的数据,有时产生的数据往往维度非常高,即称为高维大数据,然而数据挖掘中需要处理的高维数据通常包含冗余属性而难以直接被应用。属性选择在机器学习领域扮演着不可或缺的角色,工程和学术研究中经常会使用到属性选择方法,它可以消除高维大数据中无关紧要的属性。利用属性约简可以缩小高维数据的维度,筛选出最有意义的属性,从而降低高维数据的维度,以此来提高数据挖掘算法的效率,而又不改变其学习效果。属性选择一般在搜索策略和评价标准上进行讨论研究,不同的策略设计的算法一般有三类,即过滤器、包装器、嵌入模型,在评价标准上一般分为属性加权排序算法和子集选择算法。利用属性约简可以缩小高维数据的维度,筛选出最有意义的属性,从而降低高维数据的维度,以此来提高分类和回归效果。已有的属性约简方法可以分为子空间学习和属性选择两类。子空间学习是将高维数据投影到低维空间,从而保持了数据间的相关结构。属性选择方法可以通过某种积分排名标准对属性进行排序,筛选出最有意义的属性,是一种提高算法性能的手段,因此它能够在模式识别和机器学习等领域得到广泛应用。本文在模型中同时运用属性选择和子空间学习,并利用超图正则化项保持数据间的局部结构,用低秩约束来保持不同数据的全局结构,并应用在分类和回归数据集上。本论文的核心内容和创新点如下:(1)提出了一种基于局部结构学习的无监督谱属性选择算法(Unsupervised Spectral Feature Selection with local structure learning,缩写为LSLFS)。该方法结合属性选择和局部结构学习它能够自适应地学习高维数据的局部流形结构,并且能够学习到更多有价值的属性。此方法引入了一个合理的约束条件,在尽可能少的噪声和冗余的低维空间中获得局部和全局结构关联性,从而动态地构造图矩阵,这样的图矩阵就更为可靠了。在此算法的框架中,将?2,1-范数正则化项整合到最小二乘损失函数中来寻找样本之间的相关性,能有效地剔除离群点的干扰,选择更多有用的样本,提高属性选择模型的性能。(2)提出一种基于超图表示的低秩属性选择算法用于回归分析(Based on hypergraph expressing low-rank feature selection algorithm for regression analysis,简称为LHSLFS)。LHSLFS算法在属性选择时考虑了类标签之间的关系,并且运用了双重稀疏模式,即对损失项用?2,1-范数进行样本选择,对回归系数矩阵AB用?2,p-范数进行惩罚,通过调节p(0
FS算法的目标函数运用与交替方向乘子法稍微不同的方法进行求解,即先固定低秩属性选择的结果,以此增强子空间学习的能力。然后,固定子空间学习的结果,确保低秩属性选择能输出更具判别力的属性集。该优化算法使目标值在每次迭代过程中逐步趋近于全局最优解,最终取得全局最优解。本文针对高维数据中的分类和回归两大类数据集进行实验分析,充分验证了本文提出的属性选择算法的性能。具体来说,本文运用超图、低秩以及稀疏等技术,将属性选择算法用于分类和回归,本文将提出的属性选择算法和其他属性算法进行比较,在各类评价指标上,本文设计的算法在公开的大部分数据集上表现的性能比其他算法更优秀。在今后的工作中,将考虑在深度学习框架中进行运用,属性选择算法作为深度学习数据的预处理阶段,然后再运用到各类实际应用中。