超图低秩属性选择算法及应用

来源 :广西师范大学 | 被引量 : 0次 | 上传用户：zxcvbnmzhaowei

【摘要】

：

在这个数据日益增长的时代,各类电子设备在每时每刻都会产生或多或少的数据,有时产生的数据往往维度非常高,即称为高维大数据,然而数据挖掘中需要处理的高维数据通常包含冗余

【作者】

：

方月

【出处】

：

广西师范大学

【发表日期】

：

2018年01期

【关键词】

：

数据挖掘稀疏学习超图低秩表示数据预处理属性选择

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在这个数据日益增长的时代,各类电子设备在每时每刻都会产生或多或少的数据,有时产生的数据往往维度非常高,即称为高维大数据,然而数据挖掘中需要处理的高维数据通常包含冗余属性而难以直接被应用。属性选择在机器学习领域扮演着不可或缺的角色,工程和学术研究中经常会使用到属性选择方法,它可以消除高维大数据中无关紧要的属性。利用属性约简可以缩小高维数据的维度,筛选出最有意义的属性,从而降低高维数据的维度,以此来提高数据挖掘算法的效率,而又不改变其学习效果。属性选择一般在搜索策略和评价标准上进行讨论研究,不同的策略设计的算法一般有三类,即过滤器、包装器、嵌入模型,在评价标准上一般分为属性加权排序算法和子集选择算法。利用属性约简可以缩小高维数据的维度,筛选出最有意义的属性,从而降低高维数据的维度,以此来提高分类和回归效果。已有的属性约简方法可以分为子空间学习和属性选择两类。子空间学习是将高维数据投影到低维空间,从而保持了数据间的相关结构。属性选择方法可以通过某种积分排名标准对属性进行排序,筛选出最有意义的属性,是一种提高算法性能的手段,因此它能够在模式识别和机器学习等领域得到广泛应用。本文在模型中同时运用属性选择和子空间学习,并利用超图正则化项保持数据间的局部结构,用低秩约束来保持不同数据的全局结构,并应用在分类和回归数据集上。本论文的核心内容和创新点如下:（1）提出了一种基于局部结构学习的无监督谱属性选择算法（Unsupervised Spectral Feature Selection with local structure learning,缩写为LSL_FS）。该方法结合属性选择和局部结构学习它能够自适应地学习高维数据的局部流形结构,并且能够学习到更多有价值的属性。此方法引入了一个合理的约束条件,在尽可能少的噪声和冗余的低维空间中获得局部和全局结构关联性,从而动态地构造图矩阵,这样的图矩阵就更为可靠了。在此算法的框架中,将?_2,1-范数正则化项整合到最小二乘损失函数中来寻找样本之间的相关性,能有效地剔除离群点的干扰,选择更多有用的样本,提高属性选择模型的性能。（2）提出一种基于超图表示的低秩属性选择算法用于回归分析（Based on hypergraph expressing low-rank feature selection algorithm for regression analysis,简称为LHSL_FS）。LHSL_FS算法在属性选择时考虑了类标签之间的关系,并且运用了双重稀疏模式,即对损失项用?_2,1-范数进行样本选择,对回归系数矩阵AB用?_2,p-范数进行惩罚,通过调节p（0FS算法的目标函数运用与交替方向乘子法稍微不同的方法进行求解,即先固定低秩属性选择的结果,以此增强子空间学习的能力。然后,固定子空间学习的结果,确保低秩属性选择能输出更具判别力的属性集。该优化算法使目标值在每次迭代过程中逐步趋近于全局最优解,最终取得全局最优解。本文针对高维数据中的分类和回归两大类数据集进行实验分析,充分验证了本文提出的属性选择算法的性能。具体来说,本文运用超图、低秩以及稀疏等技术,将属性选择算法用于分类和回归,本文将提出的属性选择算法和其他属性算法进行比较,在各类评价指标上,本文设计的算法在公开的大部分数据集上表现的性能比其他算法更优秀。在今后的工作中,将考虑在深度学习框架中进行运用,属性选择算法作为深度学习数据的预处理阶段,然后再运用到各类实际应用中。

其他文献

一种基于隐私保护的全局最优模型

数据持有者经常需要将数据库对外发布以供研究或其它用途,而发布的数据中往往会包含有大量个体的隐私信息。在正常情况下这些发布的数据会被合理使用,但是与此同时这些数据也

学位

隐私保护连接攻击κ-匿名l-多样性t-接近

基于ZingRDK的字符特征提取嵌入式系统设计与实现

近年来,机器视觉技术发展迅速,图像特征提取作为计算机机器视觉处理中的一个热门领域,在残缺字符处理、字符信息恢复等方面应用广泛,为古籍研究以及近现代残损书籍的还原和留

学位

ZingRDK特征提取嵌入式系统移植

城市过饱和主干道交通协调控制方法研究

随着社会经济的发展,车辆越来越多。早晚高峰期城市道路出现过饱和的交通状态越来越频繁,交通拥堵日益严重,造成了车辆延误和行程时间的增加。过饱和交通状况引起的交通拥堵带来巨大的经济损失和社会代价。因此,有必要寻求一种高效的交通信号控制方法来协调城市交通流。交叉口作为交通信号控制的瓶颈,是交通协调控制的基础,而主干道作为城市交通的重要承担者,是交通协调控制的主要对象。因此,本文通过对交通流演化规律进行分

学位

过饱和模型预测控制排队溢出控制车流密度交通协调控制

基于栅格细胞的高维空间函数拟合算法研究

哺乳动物能够将它们所处的环境在大脑内部表示出来。位于海马体中的位置细胞只对环境中的某几个位置放电。位于内嗅皮层的栅格细胞对环境中的许多位置放电,其放电在二维空间

学位

栅格细胞径向基函数函数拟合随机映射Q-Learning

基于张量分解和非负矩阵分解的视觉哈希算法

多媒体信息安全是多媒体领域与信息安全领域的交叉研究课题,在近年引起了研究人员的广泛关注。作为一项重要的多媒体信息安全保护技术,多媒体哈希已被成功应用到多媒体信息检

学位

视觉哈希张量分解Tucker分解离散余弦变换非负矩阵分解

广西北海外运有限公司现代物流发展战略研究

当前物流市场全面开放的格局加剧了各类物流企业的竞争态势。作为国有大型传统物流企业中国外运长航集团的下属机构,广西北海外运有限公司如何在不断变化的物流环境中做出相

学位

广西北海外运有限公司现代物流发展战略

声呐图像的灰度统计特征及其在OTSU和FCM分割中的应用

在声呐技术中,声呐图像分割结果的准确性直接影响后续的处理环节以及最终对声呐图像的理解,因此声呐图像分割在声呐技术中具有重要的地位。但是由于声呐图像受海底噪声影响,

学位

声呐图像灰度统计特征图像分割最大类间方差法模糊C-均值聚类

基于CDTA的高阶滤波器

随着信息技术的飞速发展,作为分离有用和无用信号的模拟滤波器是信息产业中的重要部件,其性能的优劣直接影响整个信息系统的质量。由于电流模式电路在带宽、速度以及线性度等

学位

模拟集成电路电流模式高阶滤波器电流差分跨导放大器可重构滤波器

多扫描链测试数据压缩方法研究

随着现代工业技术的不断发展,数字电路的集成度越来越高,系统芯片(System-on-a-Chip,SoC)上集成的知识产权核(Intellectual Property,IP)越来越多,功能也越来越复杂。在测试

学位

测试数据压缩多扫描链相容扫描切片变换编码

基于DIBR绘制的3D图像水印技术研究

3D视频以其观看时强烈的立体感和全新的视觉体验日渐成为数字媒体发展的主要趋势,而在目前2D-3D图像/视频转换技术中,基于深度图绘制(DIBR)3D图像技术由于具有所需的数据量小

学位

3D图像水印特征区域几何校正

超图低秩属性选择算法及应用

其他学术论文