论文部分内容阅读
有序回归问题是机器学习中一类重要的问题,它的目标是预测离散的有序类别,这导致它区别于多分类和回归问题。有序回归方法成功应用在很多现实场景中,包括年龄预测、信用评估和信息检索等重要领域。然而在大数据时代,机器学习问题通常面临数十万乃至上千万的数据规模。尽管研究者们已经提出了很多有序回归方法,但这些方法仍不能高效地处理大规模数据。本研究将在针对多分类和回归问题的大规模算法上做进一步的探讨,主要算法包括异步并行坐标下降算法,双重梯度下降算法以及深度学习算法。本文针对大规模有序回归问题进行了以下研究:(1)针对支持向量有序回归模型,本文提出了两种新的异步贪婪坐标下降求解算法。第一种算法使用活动集技术进一步加速先进的异步并行贪婪坐标下降算法。第二种特别设计的算法可以在训练过程中尽可能保持阈值的有序性,使得其可以更快获得好的预测结果。更重要的是,本文对几种并行坐标下降算法进行了时间复杂度分析。最后,在多个大规模数据集上的实验验证了提出算法的加速效果。(2)针对通用核有序回归阈值模型,本文提出一种新的双重随机梯度下降算法。由于有序回归阈值模型存在多个用来划分有序类别的阈值,目前先进的双重随机梯度下降算法及其理论分析没有办法直接应用到该模型。为了解决这个问题,本文提出新的双重随机梯度下降算法,分别更新超平面和多个阈值。理论上,本研究证明其和常见的随机梯度算法一样,具有O(1/t)的收敛率。最后,本研究设计大规模实验证实了该算法比现有的方法更加快速。(3)针对有序回归问题的特点,本文提出一种新的深度有序回归算法。有序回归问题综合了分类和回归问题的特点,然而现有的有序回归方法往往侧重其中一个问题的特点。并且大多数有序回归方法忽视了有序回归数据集中天然存在的有序噪声,使得泛化精度变差。针对这些问题,本研究提出一种新的深度有序回归目标函数,该目标函数结合了分类和回归损失函数的特点,鲁棒性更强。为了进一步加速在多类别有序回归问题上的训练速度,本文提出使用二进制编码将问题规模从O(rn)减小到O(log(r)n)。在大规模数据上,与多个深度有序回归算法相比,本文提出的方法更加快速有效。