基于差分修正的深度学习优化器

来源 :天津大学 | 被引量 : 0次 | 上传用户：shabaoge

【摘要】

：

【作者】

：

袁炜

【机构】

：

天津大学

【出处】

：

天津大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当前深度学习发展迅速,深度模型的参数量和样本数量越来越大,这对模型的训练是一个巨大的考验。深度学习研究人员期望能开发出一种,使模型收敛速度快且收敛精度高的优化算法。基于这个背景,我们提出了新的学习率非自适应优化算法RSGDM和学习率自适应优化算法DAdam。我们从理论上分析了,当前深度学习优化器中广泛使用的指数滑动平均法会带来一定的偏差,并且提出了基于差分修正的方法,本文从理论上证明了基于差分修正后可以降低偏差。我们基于差分修正的思想改进了SGDM算法和Adam算法,提出了我们的RSGDM和DAdam算法。我们在CIFAR-10和CIFAR-100数据集上使用RSGDM优化算法和SGDM优化算法训练Res Net18和Res Net50模型,实验证明我们的RSGDM算法有着更高的收敛精度。我们给出了DAdam算法的非凸优化和凸优化的收敛性分析,其中对凸优化情况给出了详细的收敛证明。最后我们分别从图像分类、语言建模和目标检测三个任务上,实验对比了DAdam算法和其他几种当前最流行的深度学习优化算法,这包括SGD、Adam、Ada Bound、RAdam、Ada Belief算法,其中图像分类使用CIFAR-10、CIFAR-100、Image Net数据集和VGG11、Res Net18、Dense Net121模型,语言建模任务使用Penn Treebank数据集和一二三层LSTM模型,目标检测任务使用PASCAL VOC数据集和Faster-RCNN+FPN模型,实验显示我们的DAdam算法在三种任务上都能有出色的表现。

其他文献

基于风险测度和逐步对冲算法的多阶段随机模型与求解

最优化问题是人们在工程技术、科学研究和经济管理的诸多领域经常遇到的问题.随着数学理论与方法向各门学科和各个领域的广泛、深入的渗透,为实际生活中的优化问题建立数学模型,求解最优策略越来越受到重视.然而实际问题常常包含不确定性,不仅给问题的建模与求解带来直接的困难,同时使得规划方案的风险成为一个必须考虑的因素.因此,如何处理这些随机参数、建立考虑风险的模型并设计有效的算法,成为数学与其他学科交叉研究领

学位

带非单调记忆核函数波方程的适定性及稳定性研究

在实际工程中,带有结构记忆的偏微分方程模型是十分常见的。其中,记忆项的出现会影响系统的渐近表现,进而严重影响系统本身具有的性质。通过查阅以往的相关文献,我们发现粘弹性系统中普遍存在着结构记忆,而且当记忆核函数在定义区间内具有单调性时,系统是适定的且渐近稳定的。记忆核的单调性要求,显然对研究问题的范围带来局限性,因为许多实际问题中记忆核函数并不具有单调性。因此,本文将研究带非单调记忆核函数波方程的适

学位

ΠΣ-域上线性差分方程的极小万有分母

求解有理系数线性差分方程的有理解是符号求和中的重要问题,并有广泛应用。解决这类问题的一个关键步骤是计算有理解分母的界,在获得分母界后,就可以将求有理解的问题简化为求多项式解的问题。Abramov提出了寻找线性差分方程有理解万有分母的首个算法,其后很多学者在Abramov算法的基础上对线性差分方程以及类似方程及方程组有理解的万有分母进行了深入研究。Hou和Mu在一阶线性差分方程的情形下改进了Abra

学位

关于阻尼振动系统周期碰撞解的多重性研究

本文主要研究了两类不同的次线性条件及一类新超线性条件下阻尼振动系统-x=g（t）x+f（t,x）周期碰撞解的多重性问题.首先,通过广义非光滑鞍点定理及吴鲜和王少敏[1]建立的证明零点集孤立的新方法,分别在两类不同的次线性条件下得到了阻尼振动系统-x=g（t）x+f（t,x）周期碰撞解的多重性结果.这两个结果说明文章[1-5]中需要的条件“f≥0”可以弱化,且先前一些文章[2-6]中“用F（t,x）

学位

基于预估器的边界具有时滞的一维分布参数系统的控制器设计与镇定

时滞是实际工程问题中一种普遍存在的现象,一般来说,它存在会影响原来系统的性能。找到合适的反馈控制律来消除时滞带来的不利影响,一直是学者们研究的热点和难点问题。对于边界输入带有时滞的分布参数系统的镇定问题,主要的特征是控制输入算子无界,同时边界观测算子也是无界的,这就为设计控制器镇定时滞系统带来根本性困难。在系统是适定与正则的框架之下,本文引入了一种新的状态预估器,据此提出了一种实用的控制律。通过引

学位

大规模文献的内容挖掘与影响力分析

单篇文献以及文献群组的评价在机构排名、学者评价、文献检索等方面非常重要。在对单篇文献影响力评估上,目前的评价一般建立在被引数量或者对引文网络的分析上,忽视了引文质量和引文主题信息,导致对文献评价不全面;当评估文献群组的影响力时,目前的评价一般建立在发表的论文数量或者平均被引量上,忽视了不同群组的内容信息,评价指标较单一。本文在分析现有的单篇文献影响力评估与文献群组影响力评估的不足的基础之上,基于对

学位

Romanov类的常数问题

在1934年,Romanov[1]证明了可以表示成p+2k这一形式的正整数集具有正的渐近密度.经过深入研究,数论学界对该密度进行了定量分析和改进,目前最新结果是Elsholtz和Schlage-Puchta[2]求得了渐近密度的下界是0.107648.另外,诸多学者也对Romanov定理的一般化问题展开了研究.本文的主要工作是对三类Romanov型问题进行定量的研究.证明了可以表示成一个素数与一个

学位

光滑牛顿算法在两类优化问题中的应用

近些年来,随着经济的增长和社会的发展,在一些工程、经济、金融等领域出现了越来越多的优化问题,其中很多问题涉及到求解非光滑方程.本文主要应用光滑牛顿算法求解了两类优化问题.第一类优化问题是张量互补问题（TCP）,张量互补问题作为线性互补问题（LCP）的推广以及非线性互补问题（NCP）的特例是一种新型的互补问题.在这之前,已经有一些学者提出了相关的算法来求解张量互补问题.本文主要讨论的是在强P张量的基

学位

槽道流动中层流向湍流转捩的数值计算研究

最近的研究表明,当雷诺数较低时,湍流呈现出与流向有一定倾斜角度的细长的带状结构,并且随着流场的发展,这个带状湍流结构在流向上的尺寸并不增长,在展向上横向生长使得湍流带的长度变长。本文对低雷诺数下的槽道流动进行了直接数值模拟,分析了低雷诺数下湍流带的运动性质和湍流生成机制。结果表明,湍流结构在下游端不断地侵入层流区域,但在上游端逐渐衰减,这种两个端头的不对称性导致了湍流带的横向增长。通过对湍流带下游

学位

关于鞅的Berry-Esseen估计

该论文主要讨论鞅的正态逼近的绝对误差,也称为Berry-Esseen估计.因为Berry-Esseen估计为中心极限定理的收敛速度提供了一个刻画,所以在实际应用中起着重要的作用.本文主要展示我们在鞅的Berry-Esseen估计方面取得的进展.首先,在假设3+ρ,ρ＞0,阶条件矩存在的条件下,得到了一个以1/n1/2阶为收敛速度的Berry-Esseen估计.然后讨论了其在线性过程中的应用.其次,

学位

基于差分修正的深度学习优化器

与本文相关的学术论文