论文部分内容阅读
深度学习是一种最近提出来的机器学习模型。该模型与传统的浅层机器学习模型相比,含有两层及两层以上的隐藏层。实际上,深度学习是一个多层次的网络结构,该网络结构可以用一个复杂的复合函数进行拟合。深度学习中的复合函数的自变量是深度学习模型每一层中的权重参数及偏差项,这些参数的取值直接决定了网络输出的准确性。为了提高深度学习模型输出值的准确性,我们需要不断优化该模型中的参数,因此,深度学习中的优化算法已经成为人们的研究热点。本文针对深度学习中五种典型的优化算法进行改进,包括:Adam算法、RMSProp算法、AdaGrad算法、动量算法以及梯度法。为了使Adam算法和AdaGrad算法有更快的收敛速度,我们在Adam算法和AdaGrad算法中引入了动量的思想,提出了带动量的Adam算法和Adarad算法,我们称改进的Adam算法为AMM算法;为了修正动量算法中的初始化误差,我们提出了改进的动量算法;为了避免给RMSProp算法设定初始学习率的困扰,我们将两种典型的BB步长引入到RMSProp算法中,提出了带BB步长的RMSProp算法;为了克服梯度法在最小值点附近收敛速度变慢的缺陷,我们将典型的模式步引入到梯度法中,提出了带模式步的梯度法。我们通过数值实验表明了五种改进之后的算法在不同程度上优于原来的算法,其中Adam算法的改进效果最为明显,我们不但给出了 AMM算法的数值实验,我们通过理论分析证明了该算法的收敛性。目前还没有其他四种算法的收敛性证明。除此之外,带模式步的梯度法还没有应用到深度学习模型中。我们将在以后的工作中对除AMM外的四种算法进行理论分析。