稀疏深度非负矩阵分解模型与算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:fengxuemin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据被视为一种新的生产力。大数据不仅仅指单一数据量的增加,数据的结构也变得越来越复杂。这给数据分析与挖掘带来了严峻的挑战,同时激发无数学者致力于研究新的数据挖掘与模式识别方法。作为数据挖掘的一部分,数据分类以及特征提取一直以来都是研究的热点。非负矩阵分解(NMF)是一种强大的用于降维、特征提取以及分类的数据分析方法,而且已经被应用在诸多领域中。比如,文本聚类、图像识别、基因表达数据分析等。近年来,已经有很多NMF的变形,比如稀疏化、网络正则化、以及多重分解NMF模型等。然而,非负矩阵分解模型的大部分改进仍属于单层模型框架,这不足以分析日益复杂的大数据。深度学习可以通过多层结构的学习获得深度的特征,达到更精确的识别效果。然而,深度学习需要大量带标签的训练数据,模型通常被训练的很深,且其参数调节的技巧性使理论分析很困难。于是深度主成分分析、PCA网络、级联粒度森林等新的“深度”学习框架陆续出现。它们建立在主成分分析或者随机森林等经典机器学习基础上,理论分析容易、训练简单、实验效果很好。这些研究指引我们尝试构建新的深度学习框架,以浅层学习方式来逼近深度学习的效果。  本文主要基于深度非负矩阵分解技术对数据的特征提取以及样本分类学习展开深入研究。具体而言,本文的研究主要包含以下内容:  首先,本文提出了稀疏深度非负矩阵分解模型来学习复杂真实数据。将原始单层非负矩阵分解模型延伸到多层分解模型,并根据不同的稀疏性需求建立不同的深度非负矩阵分解模型。利用多层分解结构,我们对数据进行深入地挖掘,提取深度特征同时学习更具判别的表示矩阵对样本进行分类及预测。  其次,为了避免非负矩阵分解经典算法收敛慢、甚至不收敛或者解不稳定的缺点,我们采用了Nesterovs加速梯度下降算法来加快算法的收敛速度。梯度下降的算法适用于并行系统,方便于大规模的优化计算,而且Nesterovs算法的收敛速度为O(1/k2)(k是迭代步数),较收敛速度为O(1/k)的传统梯度下降算法来讲,它可以大大减少算法的迭代次数。  另外,为了分析模型处理实际数据的性能,我们进行了大量的实验,对模型结构进行优化,筛选合适的层数以及每一层子基向量的个数。为了增强模型处理线性不可分数据的能力,我们考虑了在原有线性模型中添加非线性函数。同时,我们比较了非线性函数不同施加方式的区别。  最后,本文针对两套带有金标准的数据进行了丰富的数值测试实验。实验结果表明,我们所建立的模型相比于传统的非负矩阵分解模型不仅在分类精度上有较大提升,而且还能够更加直观地展示出分层特征提取的过程。
其他文献
本文讨论了差集,相对差集,Bent函数,完美非线性映射的一些性质,把构造完美非线性映射转换成构造分裂型半正则的相对差集,并利用Galois环的性质,通过构造半正则相对差集得到了从Zn4(
任意结合环上的任意模的平坦复盖和余挠包络的存在性已于2001年得到证明。众所周知,投射复盖不是普遍存在的,与之成鲜明对比的是,平坦复盖和内射包络总是存在的。从这种意义上说
矩阵乘法的算法复杂度分析是计算理论中一个重要问题。我们首先介绍了这一方面的开创性工作—Strassen算法;接下来介绍了矩阵乘法的群论方法和其中的一些重要的概念、相关性
数学解题能力是一种综合的能力,一般是指综合运用数学基础知识、基本方法和逻辑思维规律,整体发挥数学的基本能力和思维水平,对数学问题进行分析、解决的能力.它涉及逻辑学、
通过试验研究,阐明了在低肥力土壤条件下,氮磷钾营养元素互作、单作对高产杂交玉米产量、效益、植株和籽粒氮磷钾含量与吸收量、肥料和土壤氮磷钾当季利用率等影响,初步确定
近年来,随着无线通信技术的迅猛发展,用户对与位置相关的信息需求日益增强,使得移动网络中的移动台定位问题成为研究的热点之一。因为定位业务已经成为3GPP必须支持的业务,所
本文主要围绕基于密度泛函理论的第一原理电子结构计算展开工作,包括算法设计与分析以及数值模拟.在算法设计方面,我们从Kohn-Sham能量极小化问题出发,设计了保正交约束的共轭梯
本文利用有限群的构造知识及Fitting高的特性,解决4pg,p2g2阶有限群的构造.其构造如下:  |G|=4pg时,其中F表示G的Fitting子群,构造如下:G非可解时,有一种情形:G~=A5.G幂零时,此时G有
本文通过对荣华二采区10
从上世纪80年代初神经网络的研究再次复苏并形成热点以来,发展非常迅速,从理论上对它的计算能力、对任意连续映射的逼近能力、学习理论以及动态网络的稳定性分析都取得了丰硕的