论文部分内容阅读
在统计和机器学习等领域,参数估计是一类值得研究的问题,广泛采取通过对目标函数进行优化的思想。然而,随着计算机的出现和信息时代的到来,有时需要处理数百万甚至数十亿个训练样本的优化问题,统计机器学习方法的能力受到计算时间而不是样本大小的限制,广泛使用的基于优化的估计方法无法应用于这些大规模的现代数据集中。在这样的背景下,随机梯度下降法逐渐引起人们的关注,这是一种递归估计方法,相比于传统的优化方法每一次估计都要遍历所有的数据集,这种方法每一步只需要利用少量的数据对模型参数进行更新,因此可以很方便的对大规模数据集求解参数估计。然而,传统的随机梯度下降法是数值不稳定的,如果选取较小的学习速率参数,收敛会变得缓慢;如果选取较大的学习速率参数,既会导致较大的渐进方差,同时也可能会导致数值发散。因此,需要谨慎选取学习速率参数的值。一些参数选择方法不断的被提出和改进,本文将会研究一种基于标准的随机梯度下降法的变体方法,即采取隐式更新的思路对传统的方法进行改进,本文称之为隐式随机梯度下降法,为了便于区分,称传统的随机梯度下降法为显式随机梯度下降法。本文的核心部分将会分别应用显式随机梯度下降法和隐式随机梯度下降法对两种经典的统计模型求解参数估计,为了保证结果的全面性和可靠性,分别选取一个典型的回归问题和一个典型的分类问题,即线性回归模型和logistic回归模型。针对两种随机梯度下降法,选取常用的三种参数选择方法,同时以R语言统计软件中最经典的方法1m(.)和glm(.)作为基准方法。通过实验结果可以看出,无论是对于回归问题,还是对于分类问题,相比于传统的方法,两种随机梯度下降法大大减少了执行时间,因此更适用于大规模的数据集。具体的,在某些参数选择方法下,应用显式随机梯度下降法估计的参数值与实际参数偏离较大,表现出了不稳定性,因此在实际应用的过程中需要对参数进行谨慎的选取。而相比较而言,隐式随机梯度下降法在三种参数选择方法下都是很稳定的。因此,相比于显式随机梯度下降法对学习速率参数的不稳定性,本文建议隐式随机梯度下降法是更优的,值得进一步研究和关注。