基于隐式随机梯度下降法的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:eeee_188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在统计和机器学习等领域,参数估计是一类值得研究的问题,广泛采取通过对目标函数进行优化的思想。然而,随着计算机的出现和信息时代的到来,有时需要处理数百万甚至数十亿个训练样本的优化问题,统计机器学习方法的能力受到计算时间而不是样本大小的限制,广泛使用的基于优化的估计方法无法应用于这些大规模的现代数据集中。在这样的背景下,随机梯度下降法逐渐引起人们的关注,这是一种递归估计方法,相比于传统的优化方法每一次估计都要遍历所有的数据集,这种方法每一步只需要利用少量的数据对模型参数进行更新,因此可以很方便的对大规模数据集求解参数估计。然而,传统的随机梯度下降法是数值不稳定的,如果选取较小的学习速率参数,收敛会变得缓慢;如果选取较大的学习速率参数,既会导致较大的渐进方差,同时也可能会导致数值发散。因此,需要谨慎选取学习速率参数的值。一些参数选择方法不断的被提出和改进,本文将会研究一种基于标准的随机梯度下降法的变体方法,即采取隐式更新的思路对传统的方法进行改进,本文称之为隐式随机梯度下降法,为了便于区分,称传统的随机梯度下降法为显式随机梯度下降法。本文的核心部分将会分别应用显式随机梯度下降法和隐式随机梯度下降法对两种经典的统计模型求解参数估计,为了保证结果的全面性和可靠性,分别选取一个典型的回归问题和一个典型的分类问题,即线性回归模型和logistic回归模型。针对两种随机梯度下降法,选取常用的三种参数选择方法,同时以R语言统计软件中最经典的方法1m(.)和glm(.)作为基准方法。通过实验结果可以看出,无论是对于回归问题,还是对于分类问题,相比于传统的方法,两种随机梯度下降法大大减少了执行时间,因此更适用于大规模的数据集。具体的,在某些参数选择方法下,应用显式随机梯度下降法估计的参数值与实际参数偏离较大,表现出了不稳定性,因此在实际应用的过程中需要对参数进行谨慎的选取。而相比较而言,隐式随机梯度下降法在三种参数选择方法下都是很稳定的。因此,相比于显式随机梯度下降法对学习速率参数的不稳定性,本文建议隐式随机梯度下降法是更优的,值得进一步研究和关注。
其他文献
自Shulman(1986)提出“学科教学知识”的概念以来,国内外学者对学科教学知识的研究不断发展、深化。学科教学知识由学科知识和教育知识构成,强调教师用学生容易的理解方式来表述学科知识。学科教学知识作为教师知识的核心,影响着教师专业水平的发展、教育改革的推进,但以往研究中关于高中英语教师学科教学知识的对比分析相对较少。本文旨在探究高中英语新手教师和专家教师学科教学知识的差异,明确英语教师学科教学
阐述了在当下的局势来看电台的播出安全问题的重要性,我们需要对于电台的播出安全问题进行格外的重视,不仅要提高相关设备的性能,还要提高播出人员的素质,这样就才可以确保节
发生于1937年12月的南京保卫战与取胜于1938年4月的台儿庄大捷,从战役研究的角度既有其共性和规律,也存在着各自的不同。本文结合战区作战背景、作战部队、作战环境、作战思想
从FDA批准的新药情况来看,2014年仅批准了4个抗生素,分别是:5月阿特维斯的Dal-vance(达巴万星)、6月Cubist的Sivextro(泰地唑胺)、8月Medicines公司的Orbactiv(奥利万星)、12月
报纸