大规模正则化机器学习算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:cr15mo3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习技术深入研究,高维数据问题逐步引起学术界和产业界的广泛兴趣,机器学习模型、求解算法在高维数据上面临着新的挑战。研究人员通过增加正则项,改进传统的机器学习模型,形成各种正则化机器学习模型。正则化机器学习将隐藏在变量之间的结构信息表达为正则函数。正则函数能够有效利用特定的结构信息,增强传统机器学习模型的表达能力,提高传统机器学习模型的性能,同时,因其具有稀疏引导等作用使其在模型应用时也带来潜在的计算优势,这使得正则化机器学习在以高分辨图像处理、生物工程,以及信息检索等代表的实际场景中得到广泛应用。实际应用中,大规模正则化机器学习问题的求解面临着数据规模大、模型维度高,以及不易求解等巨大挑战。数据规模大,主要是指数据样本数量巨大,而且,数据的规模还随时间而不断累积。模型维度高,主要是指模型中变量的维度高,并随着应用需求的出现而不断增加。模型不易求解主要是指模型目标函数具有非平滑、非线性、非凸,以及不可导等难于计算的性质,同时,由于组合正则函数的引入使得传统求解算法的子问题往往不再具有解析解而加剧了求解难度。本论文主要对上述问题开展研究,寻找求解该类问题的有效方法,取得的主要成果与创新工作概括如下:1.面向正则化机器学习大规模数据集泛化凸正则的快速随机算法(SPDHG)首先,论文考虑在大规模数据集下求解具有泛化凸正则函数的正则化机器学习问题,其中,泛化正则项与经验风险误差函数通过线性函数组成学习问题的凸目标函数。这是在机器学习中广泛存在的一类优化问题,如:具有稀疏引导的SVM、Lasso,以及具有图结构引导正则的最小化问题。由于附加的线性组合的存在,正则项相关的近点映射的解析解往往不存在,这使得这类问题不易求解。一般使用ADMM类算法来求解这类问题,需要迭代求解原对偶变量及拉格朗日乘子相关的子问题。本文通过观察发现,在这类问题中,部分正则项的结构可以允许将原问题重新形式化为一个凸凹鞍点问题,进一步使用原对偶混合梯度方法(PDHG)求解。然而,在实际应用中,原对偶混合梯度方法需要计算目标函数的全梯度,这使得该方法在数据密集型应用中可能失效。特别是在数据样本数量相对较大时,求解问题的空间开销和时间开销往往都变得不可接受。为解决数据样本量增大带来的难题,本文提出随机原对偶混合梯度方法(SPDHG),并从理论上分析提出算法在目标函数为一般凸和强凸的情况下,在采用均匀和非均匀迭代策略时,算法所分别具有的收敛速率。当目标函数为一般凸函数时,论文的算法预期以0(1/(?))的速率收敛。当目标函数为强凸函数时,在均匀迭代策略下,论文的算法预期以O(log(t)/t)的速率收敛;在非均匀迭代策略下,论文的算法预期以O(1/t)的速率收敛。提出的SPDHG算法较现有的ADMM类算法具有更低的时间开销,在多个数据集上的数值实验结果表明本文提出的SPDHG算法超越了对比算法。2.面向正则化机器学习大规模数据集具有线性等式约束非平滑凸正则的随机算法(SEGADM)然后,论文尝试在大规模数据集下求解具有线性等式约束和非平滑正则函数的复杂正则化机器学习问题,这类问题可形式化为由两个可能非平滑凸函数加和构成的凸目标函数,其中,一个函数是随机复合函数的期望,另一个函数具有相对易于求解的近点映射。这类优化模型涵盖了机器学习中很大一部分重要的应用,例如:邻近趋同逻辑回归,以及具有图结构引导正则的最小化问题。本文提出基于外梯度的随机变方向方法(SEGADM)来求解,SEGADM算法结合外梯度方法和随机梯度算法,获得了外梯度方法带来的求解性能上的稳定性,同时还具有处理大规模问题的能力。论文从理论上分析了 SEGADM在均匀和非均匀迭代更新时的收敛性质。采用均匀迭代更新策略时,SEGADM算法在目标函数一般凸和强凸的情况下分别具有0(1/(?))和O(log(t)/t)的收敛速率。在采用非均匀更新策略时,SEGADM算法在目标函数强凸的情况下能达到O(1/t)的预期收敛速率。3.面向正则化机器学习高维变量泛化非凸正则的自适应快速算法(AdaL-ADMM)进一步,论文考虑在高维变量下具有优良统计特性的泛化非凸正则函数的正则化机器学习问题,这类问题可形式化为经验风险函数与泛化非凸正则函数通过线性组合形成的非凸问题。相比于凸正则项,在统计特性上,非凸正则项在机器学习中能得到更好的统计性质。然而,在计算过程中,与非凸正则项相对应的近点映射往往不易获得,特别是加入非凸正则项之后的线性组合的存在使求解更加困难。幸运的是,问题的结构允许论文引入附属变量,然后将原问题重新形式化为具有线性约束的优化问题。重新形式化之后的问题可以通过线性化变方向乘子法(LADMM)求解。尽管,LADMM在实际中显示出高效的性能,但将LADMM用于求解非凸正则优化时是否收敛,仍然没有一个明确的结论。论文首先对LADMM求解非凸正则优化时的收敛性进行理论分析,分析涵盖了一大类非凸正则函数。进一步,本文提出带有线性搜索准则的自适应线性化变方向乘子法(AdaLADMM)算法,并给出理论上的收敛性分析。在不同的数据集上的数值实验结果表明了提出算法的有效性。4.面向正则化机器学习超面向高维变量具有线性不等式约束非平滑非凸正则的并行算法(PPF-BCD)最后,论文考虑在超高维变量下非凸非平滑的复杂正则化机器学习问题,许多有趣而重要的机器学习模型都符合该优化问题的形式。然而,当前还缺少用于该类问题的有效一阶算法。这主要是由于两方面的原因,一方面是求解该问题的计算复杂度与模型的维度成正比,在数据驱动的应用中这会导致巨大的计算开销;另一方面是用一阶算法求解具有不等式约束的非凸非平滑的目标函数时,其收敛性难以得到保证。论文结合具有全局优化解提升的路径跟随算法(Path-Following)和在大规模优化问题中具有突出表现的块坐标下降法(BCD),并应用随机更新策略提出并行路径跟随块坐标下降法(PPF-BCD)。论文分析PPF-BCD算法在循环和随机块变量选择策略下的收敛性质。数值实验结果表明提出的PPF-BCD算法在串行版本和并行版本中都取得优良的性能结果。值得一提的是,在并行版本上,提出的PPF-BCD算法达到近乎线性的加速比。
其他文献
随着市场经济发展的提速,企业之间产品同质化的现象日益严重,消费者对于产品品质和消费感受的诉求不断升级。面对如此的市场情况,依靠传统的市场营销策略和方法是无法赢得消
炼铁是钢铁生产过程中的关键环节,高炉布料溜槽是合理布料入炉的一个关键设备,所有进入高炉的炼铁原材料(烧结矿,球团矿,焦炭等)和燃料均要冲击布料溜槽,落料对溜槽冲击是导致溜槽损坏的一个重要因素。本论文主要完成以下工作:(1)根据收集的国内外资料,对高炉布料器和布料溜槽的发展历程及其目前的发展趋势进行详细的介绍。探讨影响高炉布料溜槽使用寿命长短的主要因素,如布料规律,溜槽结构等,并对其如何影响溜槽的使
<正>党的十八大把立德树人作为教育的根本任务。习近平总书记多次强调立德树人的重要性,他指出:如果第一粒扣子扣错了,剩余的扣子都会扣错;人生的扣子从一开始就要扣好。小学
本文利用1961~2004年“三江源”地区气象台站观测的气温、降水、积雪资料,用气候诊断方法分析了该地区冬季积雪温度、降水的基本特征。结果表明:20世纪60—90年代冬季“三江源”
<正>目的Gitelman综合征属常染色体隐性遗传病,系由肾远曲小管(DCT)重吸收NaCl障碍造成的肾性失盐性疾病。由位于染色体16q13的SLC12A3基因失活突变引起,该基因编码肾DCT噻嗪
会议
成本是企业的命脉,成本管理是企业应对外界竞争、管理生产经营的核心部分,也一直是企业董事会、管理层和财务人员最关心的方面。传统的成本性态假设认为,企业成本的变化应随着业务量的变化而成比例变化,但越来越多的学者通过实证研究发现成本与业务量并不呈现对称关系,即存在“成本粘性”现象。自引入“成本粘性”概念以来,国内外学者针对各行业成本粘性的存在性、产生的原因及影响因素等都做了深度的研究。已有研究表明企业的
社会主义核心价值体系是社会主义意识形态的本质体现。高等学校肩负着培养社会主义合格建设者和可靠接班人的重任,更迫切需要坚持用社会主义核心价值体系武装大学生,努力使他
在日语语法中,助词“だけ”的词性分类问题一直争论至今。关于“だけ”是副助词还是提示助词的问题,各个语法学家都持有不同的观点。本论文根据山田语法的助词分类,将“だけ
通过对2004—2013年发表于国内核心期刊上的有关大学英语教学评估研究的文章进行检索统计,结果发现:相关研究呈明显上升趋势;研究主题主要侧重于形成性评估的必要性和可行性;研究
钢管约束钢筋混凝土结构在建筑工程中的应用日益广泛。节点作为结构受力的关键部位,深入研究其受力性能非常必要。本文对圆钢管约束钢筋混凝土柱-钢筋混凝土梁连接节点的静力