超图低秩属性选择算法及应用

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:zxcvbnmzhaowei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个数据日益增长的时代,各类电子设备在每时每刻都会产生或多或少的数据,有时产生的数据往往维度非常高,即称为高维大数据,然而数据挖掘中需要处理的高维数据通常包含冗余属性而难以直接被应用。属性选择在机器学习领域扮演着不可或缺的角色,工程和学术研究中经常会使用到属性选择方法,它可以消除高维大数据中无关紧要的属性。利用属性约简可以缩小高维数据的维度,筛选出最有意义的属性,从而降低高维数据的维度,以此来提高数据挖掘算法的效率,而又不改变其学习效果。属性选择一般在搜索策略和评价标准上进行讨论研究,不同的策略设计的算法一般有三类,即过滤器、包装器、嵌入模型,在评价标准上一般分为属性加权排序算法和子集选择算法。利用属性约简可以缩小高维数据的维度,筛选出最有意义的属性,从而降低高维数据的维度,以此来提高分类和回归效果。已有的属性约简方法可以分为子空间学习和属性选择两类。子空间学习是将高维数据投影到低维空间,从而保持了数据间的相关结构。属性选择方法可以通过某种积分排名标准对属性进行排序,筛选出最有意义的属性,是一种提高算法性能的手段,因此它能够在模式识别和机器学习等领域得到广泛应用。本文在模型中同时运用属性选择和子空间学习,并利用超图正则化项保持数据间的局部结构,用低秩约束来保持不同数据的全局结构,并应用在分类和回归数据集上。本论文的核心内容和创新点如下:(1)提出了一种基于局部结构学习的无监督谱属性选择算法(Unsupervised Spectral Feature Selection with local structure learning,缩写为LSLFS)。该方法结合属性选择和局部结构学习它能够自适应地学习高维数据的局部流形结构,并且能够学习到更多有价值的属性。此方法引入了一个合理的约束条件,在尽可能少的噪声和冗余的低维空间中获得局部和全局结构关联性,从而动态地构造图矩阵,这样的图矩阵就更为可靠了。在此算法的框架中,将?2,1-范数正则化项整合到最小二乘损失函数中来寻找样本之间的相关性,能有效地剔除离群点的干扰,选择更多有用的样本,提高属性选择模型的性能。(2)提出一种基于超图表示的低秩属性选择算法用于回归分析(Based on hypergraph expressing low-rank feature selection algorithm for regression analysis,简称为LHSLFS)。LHSLFS算法在属性选择时考虑了类标签之间的关系,并且运用了双重稀疏模式,即对损失项用?2,1-范数进行样本选择,对回归系数矩阵AB用?2,p-范数进行惩罚,通过调节p(0FS算法的目标函数运用与交替方向乘子法稍微不同的方法进行求解,即先固定低秩属性选择的结果,以此增强子空间学习的能力。然后,固定子空间学习的结果,确保低秩属性选择能输出更具判别力的属性集。该优化算法使目标值在每次迭代过程中逐步趋近于全局最优解,最终取得全局最优解。本文针对高维数据中的分类和回归两大类数据集进行实验分析,充分验证了本文提出的属性选择算法的性能。具体来说,本文运用超图、低秩以及稀疏等技术,将属性选择算法用于分类和回归,本文将提出的属性选择算法和其他属性算法进行比较,在各类评价指标上,本文设计的算法在公开的大部分数据集上表现的性能比其他算法更优秀。在今后的工作中,将考虑在深度学习框架中进行运用,属性选择算法作为深度学习数据的预处理阶段,然后再运用到各类实际应用中。
其他文献
数据持有者经常需要将数据库对外发布以供研究或其它用途,而发布的数据中往往会包含有大量个体的隐私信息。在正常情况下这些发布的数据会被合理使用,但是与此同时这些数据也
近年来,机器视觉技术发展迅速,图像特征提取作为计算机机器视觉处理中的一个热门领域,在残缺字符处理、字符信息恢复等方面应用广泛,为古籍研究以及近现代残损书籍的还原和留
随着社会经济的发展,车辆越来越多。早晚高峰期城市道路出现过饱和的交通状态越来越频繁,交通拥堵日益严重,造成了车辆延误和行程时间的增加。过饱和交通状况引起的交通拥堵带来巨大的经济损失和社会代价。因此,有必要寻求一种高效的交通信号控制方法来协调城市交通流。交叉口作为交通信号控制的瓶颈,是交通协调控制的基础,而主干道作为城市交通的重要承担者,是交通协调控制的主要对象。因此,本文通过对交通流演化规律进行分
哺乳动物能够将它们所处的环境在大脑内部表示出来。位于海马体中的位置细胞只对环境中的某几个位置放电。位于内嗅皮层的栅格细胞对环境中的许多位置放电,其放电在二维空间
多媒体信息安全是多媒体领域与信息安全领域的交叉研究课题,在近年引起了研究人员的广泛关注。作为一项重要的多媒体信息安全保护技术,多媒体哈希已被成功应用到多媒体信息检
当前物流市场全面开放的格局加剧了各类物流企业的竞争态势。作为国有大型传统物流企业中国外运长航集团的下属机构,广西北海外运有限公司如何在不断变化的物流环境中做出相
在声呐技术中,声呐图像分割结果的准确性直接影响后续的处理环节以及最终对声呐图像的理解,因此声呐图像分割在声呐技术中具有重要的地位。但是由于声呐图像受海底噪声影响,
随着信息技术的飞速发展,作为分离有用和无用信号的模拟滤波器是信息产业中的重要部件,其性能的优劣直接影响整个信息系统的质量。由于电流模式电路在带宽、速度以及线性度等
随着现代工业技术的不断发展,数字电路的集成度越来越高,系统芯片(System-on-a-Chip,SoC)上集成的知识产权核(Intellectual Property,IP)越来越多,功能也越来越复杂。在测试
3D视频以其观看时强烈的立体感和全新的视觉体验日渐成为数字媒体发展的主要趋势,而在目前2D-3D图像/视频转换技术中,基于深度图绘制(DIBR)3D图像技术由于具有所需的数据量小