基于卷积神经网络的随机梯度下降优化算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:menghuilong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能技术经过多年的积累变得日益成熟,其应用领域也不断扩大。其中基于神经网络的深度学习技术由于其突出的效果而成为了这一领域中的研究热点。在深度学习中,卷积神经网络的性能往往取决于其模型结构和学习算法。在卷积神经网络模型结构确定的前提下,各神经元之间连接的网络参数会直接决定模型的最终性能。作为调节模型参数的最基本学习算法,随机梯度下降(Stochastic Gradient Descent,SGD)已经成为深度学习实际工程应用中必不可少的一部分。根据深度学习的底层运行方式,SGD对卷积神经网络的模型参数具有串行和并行两种计算方式。通过对SGD的分析,发现SGD主要存在以下两个问题:第一,在SDG的串行计算中,其学习率是固定的,选择一个合适的学习率对SGD来说是很困难的。当选择的学习率太小时,算法的收敛速度会很慢;当选择的学习率太大时,算法容易导致模型参数在迭代过程中发生大幅度的振动,甚至导致模型不收敛。第二,在SGD的并行计算中,有同步运行和异步运行两种方式。相比于同步运行,异步并行具有更加快的运行速度。但是,在异步随机梯度下降(Asynchronous Stochastic Gradient Descent,ASGD)中存在梯度延迟的问题,梯度延迟会影响模型的收敛速度和准确率,严重时会让模型在某个特定点的更新上出现大幅度抖动的现象,甚至让模型不收敛,导致整个训练过程出错。针对SGD串行计算中存在的学习率选择困难问题,本文给出一种基于卷积神经网络的自适应学习率优化算法;针对SGD并行计算中存在的梯度延迟问题,本文给出一种基于卷积神经网络的梯度延迟优化算法;最后对这两种优化算法的有效性进行实验验证。本文的主要研究内容如下:1.给出一种基于卷积神经网络的自适应学习率优化算法。本文通过对SGD串行计算中模型参数更新公式的分析,发现SGD串行计算中存在学习率选择困难的问题。针对这一问题,本文给出ACADG算法,其是一种加速收敛的自适应学习率优化算法。ACADG算法的基本思想就是:在模型迭代过程中按照gt-1gt(其中g表示梯度,t表示迭代步数)的正负分为两个情况进行讨论,并对应使用不同的算法对模型参数进行更新。最后,通过对比经典的优化算法Adam和Amsgrad,发现本文给出的ACADG算法在模型的收敛性、收敛速度以及准确率方面均较优,在模型参数的串行更新中能够达到自适应调整学习率的效果。2.给出一种基于卷积神经网络的梯度延迟优化算法。本文通过对典型的SGD并行计算算法ASGD中模型参数更新公式的分析,发现ASGD算法中存在梯度延迟的问题。针对这一问题,本文给出DASGD算法,其是一种动态调整梯度延迟的异步随机梯度下降优化算法。DASGD算法的基本思想就是:根据每个worker中参数梯度的延迟度来动态计算梯度延迟项和动量项的权重,以达到动态调节梯度延迟的效果。最后,通过对比典型的异步算法ASGD和MDCASGD,发现本文给出的DASGD算法对梯度延迟具有更强的处理能力,在模型的准确率、损失值以及高延迟情况下的收敛性方面均较优,在模型参数的异步更新中能够有效解决梯度延迟的问题。3.给出验证自适应学习率优化算法和梯度延迟优化算法有效性的多组对比实验。针对自适应学习率优化算法,给出ACADG算法在合成损失函数、Mnist数据集、Cifar10数据集上的三组实验,并选取Adam算法和Amsgrad算法作为优化算法的对比对象。针对梯度延迟优化算法,给出DASGD算法在Cifar10数据集、Tiny-ImageNet数据集上的两组实验,并选取ASGD算法和MDCASGD算法作为优化算法的对比对象。经过多组对比实验以及实验结果的分析,具体结果如下:相比于Adam算法和Amsgrad算法,本文给出的自适应学习率优化算法ACADG在收敛性、收敛速度以及准确率这三个方面都是较优的。并且在Mnist测试数据上,ACADG算法使用CNN模型的准确率比Amsgrad算法和Adam算法的分别高3.12%和2.81%;在Cifar10测试数据集上,ACADG算法使用CNN模型的准确率比Amsgrad算法和Adam算法的分别高15.59%和1.99%。相比于ASGD算法和MDCASGD算法,本文给出的梯度延迟优化算法DASGD在准确率、损失值以及高延迟情况下的收敛性这三方面都是较优的。并且在Cifar10测试数据集上,DASGD算法使用Le Net5模型在worker数量为12时的准确率比MDCASGD算法的高3.736%;在Tiny-Image Net测试数据集上,DASGD算法使用Vgg16模型在worker数量为6时的top_1准确率比MDCASGD算法的高3.525%。因此,本文给出的两个随机梯度下降优化算法对卷积神经网络模型参数的调整都是有效的,其不仅可以优化卷积神经网络模型的收敛速度、准确率、梯度延迟等相关性能,还可以有效帮助深度学习在人工智能中的进一步应用。
其他文献
以贵阳市区土壤为对象,研究不同功能区土壤中重金属(Cu、Pb、Zn、Cr和Cd)污染的特征,采用Hakanson潜在生态危害指数法评价了土壤中重金属的潜在生态危害。结果表明,贵阳市城区
稀有气体的化学惰性使其在示踪成矿流体方面具有明显的优越性,其与碳、氢、氧、硫、锶、钕、铅同位素方法,以及卤素方法等结合使用,不但可以避免单一方法的片面性,还可以相互补充
<正>德国最近进行了一项调查,结果显示,“礼貌有加、举止文明”已成为44岁以下的德国年轻父母对孩子最重要的期望,甚至已超过以前父母最看重的“恒心和毅力”、“勤俭持家”
期刊
为研究金沙江流域表生风化特征,系统采集了金沙江和岷江流域32件河流悬浮物和河床砂样品,对其进行了矿物组成分析。结果表明,不同江段河流悬浮物、沉积物的矿物组成大致相同,以石