随机分块的加速三次正则化牛顿法

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:water_please
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最优化通常被称为数学规划,是运筹学的一大重要分支,优化领域所研究的主要问题通常是如何构建和寻找最优决策,而许多机器学习领域的问题可以归结为寻找最优的学习模型进行预测分析,属于最优化问题的一种形式,最优化理论在机器学习中无疑起着至关重要的作用。随着大数据技术的发展,数据产生的源头呈指数增加,图像、视频等信息的来源越来越容易获取,与此同时摆在我们眼前的是海量增长的数据,其规模甚至达到几何级数的增长。数据的高维性和复杂性不仅对存储带来了巨大的影响,也对我们生活中无法直接探悉却又无处不在的算法产生了极大的挑战。大数据时代下,主流的机器学习算法主要集中于一阶算法,大规模的样本数据可以有效提升机器学习模型的同时,也带来了计算速度上的瓶颈,原有的模型不能充分描述问题,原有的算法也面临应对高维数据计算量的严峻挑战。与此同时,越来越多的研究关注二阶优化算法和随机优化算法。由于二阶优化算法在大规模数据维度的情况下,以每次迭代中的低计算成本而引起广泛关注,但是经典的牛顿法不具有全局收敛的性质,Griewank(1981)提出的三次正则化牛顿法,由Nesterov and Polyak(2006)证明了其全局收敛性并给出了此算法的加速形式,在目标函数为凸函数时,原有迭代复杂度可以从O(1/(?))提升到O(1/(?))。尽管全局收敛性得到了保证,二阶算法的缺点也显而易见,在每次迭代都需要付出大量的计算成本。块坐标下降(BCD)以每次迭代使用不同的坐标方向进行下降进而求得最优解吸引人们的关注,这类算法具有计算成本低、内存空间小、可并行性高等优点,在很多实际问题中广为使用。此类算法在目标函数为凸函数时,收敛复杂度为O(1/(?)),本文着重改进经典牛顿类算法,对高维数据进行随机分块采样,同时引入Nesterov加速思想,利用Nesterov的创新加速技术来改进块坐标下降算法,在每次迭代中,仅更新x的N个坐标所划分成的n个坐标块的随机子集,提出了随机分块的加速三次正则化牛顿法。致力于求解大规模的问题(数据量为n,维度为d,n≤d的情况),以基因挖掘为例,通常是成千上万的核苷酸数据中发掘其临床表现,但样本量通常较小,即d n。根据Nesterov的理论成果分析加速技术确实可以改善分块的三次正则化牛顿法的收敛性能,并且进一步采用复合数据以及机器学习测试数据进行数值实验,与其他算法进行实验比较,进一步测试算法的实验稳定性和可行性。第一章,主要介绍本文研究的理论背景以及研究的主要意义与研究目的,并使用较大篇幅详细描述了前人在大数据优化领域的研究理论成果以及其条件局限性,重点介绍了两类算法(牛顿法和块坐标下降法)的研究现状与主要思想,并简要陈述了本文的章节安排;第二章,首先介绍本文后面章节使用到的相关数学符号,详细给出与本文相关的优化理论知识并推导证明过程,提出了我们需要求解的原问题模型,并在这一基础上,陈列出本文所需的假设性条件,推导出相关引理与证明过程;第三章,主要提出求解原问题模型的两个算法:分块坐标下降牛顿法以及分块加速三次正则化牛顿法,证明了分块坐标下降牛顿法的全局收敛性,并在一定条件下分析加速的分块三次正则化牛顿法的算法收敛性;第四章,采用复合数据以及机器学习测试的有效数据进行数值实验,分别测试了算法的实际性能,并与其他算法(拟牛顿法、加速梯度法等)进行比较,结合实验的结果,在数据维度远大于数据样本量时,本文提出的分块加速三次正则化牛顿法算法实验表现更加稳定,收敛速度也更加高效。
其他文献
新中国已经走过波澜壮阔的70年,如今,中国GDP总量已经跃居全球第二,人均GDP已超过万美元的大关。在中国经济急速发展,取得如此成就的同时,也带来了诸多的社会问题,如雾霾遮天,贫富差距悬殊等,这些问题都为将来经济的健康发展埋下了隐忧。在习近平新时代中国特色社会主义思想的指导下,我国经济要由高速增长阶段转向高质量发展阶段,而各种社会问题的解决,就变得尤为重要。近年来,各种解决社会问题的理论研究层出不
学位
云时代的到来,互联网已经不仅仅是一个单纯靠流量取胜的门户时代,随着社交网络平台快速发展,网络是一个人人都可参与创建内容、发表观点和交流意见的互动平台。这些可以是对某个产品或者服务的评论,也可以是对某个热点事件或人物的观点等。对于个人而言,在购买某样物品或者“种草”某家店铺之前,会浏览相关的评论、讨论;对于企业而言,可以对网上的评价信息进行收集与分析,不仅可以建立与维护自身的形象,还可以根据客户趋势
学位
户外广告贯穿了人们生活的每个场景。户外广告不仅可以对于受众进行全方位的触达,更是可以通过不同场景中特有的媒介进行营销活动及广告内容的延展。户外媒体作为历史最悠久的一种媒体表现形式,在互联网时代的发展并不是那么顺遂。互联网广告强交互性及精准性正在让线下广告逐渐失去光彩。在过去的几年中,线下广告的市场规模一度出现了负增长,直到户外广告不断蓄力并将户外广告的整体规模拉回正常增长轨道。程序化广告交易技术诞
学位
党的十九大报告指出:“完善公共文化服务体系,深入实施文化惠民工程,丰富群众性文化活动”。公共图书馆是基层文化惠民的主阵地,在完善公共文化服务体系、建设学习型社会中发挥着不可替代的作用。然而公共图书馆都面临着图书逾期归还率高的现象,这种现象严重削弱了图书馆的信息资源共享的职能,损害了大多数读者的阅读权利。以上海市公共图书馆的数据为例,2018年所有图书馆的图书逾期归还比例高达16.91%,其中区县级
学位
随着大数据时代的到来,越来越多的企业开始利用数据驱动的方式做出智能决策。然而现实生活中数据往往会出现缺失、偏差、过时等因素导致传统方法做出的决策风险过高。未解决不确定环境下决策问题,为此鲁棒优化应运而生。与随机优化不同,鲁棒优化不假设数据分布情况,并做出保守决策使得在最差情况仍然能保持目标收益。鲁棒优化的求解技巧不仅可以应用在诸多管理案例中,也可以应用到概率不等式上下界的求解过程中。本研究针对概率
学位
当今社会,数据作为新兴的生产要素,正在深刻影响着人民的生活方式与国家经济社会的发展。与此同时,数据的深度融合与应用衍生出的数据安全威胁和隐私保护问题,也越来越引起国家与社会大众的关注。2020年7月,第十三届全国人民代表大会发布了《中华人民共和国数据安全法(草案)》,填补了我国数据安全领域一直以来的立法空白,也彰显出国家对数据安全与数据隐私保护的关注和重视。随着全球定位系统(GPS:,Global
学位
近年来,随着我国经济水平的不断提升,国家也日益重视公共文化建设,同时,随着人民生活水平的不断提高,人们已经从过去的物质追求转化为更多精神文化层面的追求,这就导致人们对公共文化服务数量上的需求急剧增加。而一直以来,我国的公共文化设施的建设都是由政府直接出资建设,并进行管理和运营。在这种运作模式下,一方面给政府带来较重的财政压力,另一方面,由政府进行出资和建设造成公共文化供给不足,供给效率低下等方面的
学位
亲社会投资为世界范围内的慈善事业注入了新的活力,它通过互联网来连接全世界需要帮助的人和乐于帮助他人者,然后募集亲社会投资者的小额投资并以无息贷款的形式发放给那些有困难或有梦想的人。然而,无论是亲社会投资平台和还是传统慈善机构,二者都面临着一个至关重要的问题:高额的投资者流失率,即很多投资者拥有的生命周期非常短,只进行一次或很少几次然后就离开了平台。因此,分析影响投资者再投资行为的因素,进而对投资者
学位
我国综合现有的国情,在十八届三中全会提出了推进国家治理体系和治理能力现代化的方针和政策。今年我国步入十四五规划,经济在继续向前发展,向新的目标稳步迈进。又因为协调发展作为我国新发展理念之一,所以我国要持续努力推进国家治理体系和治理能力现代化,使其适应国家的其他方面的发展。社会和国家要充满生机和活力,就要积极吸引公民参与到社会和国家治理中来,同时这对公民增强对国家的信任感和认同感也有积极作用。社区治
学位
在国家与社会关系的视角下,我国治理体系处于强政府—弱社会的困境,社会自主治理力量比较薄弱,这在一定程度上减缓了我国治理体系现代化的进程。近年来,我国一直在培育、发展社会力量,鼓励社会自治。社区是社会自治的载体,而居民参与社区治理是社会自治的实现方式。但是在实践中居民参与水平较低,存在着参与意识不强、参与能力不足、参与内容有限等问题。学者一致认为社会资本流失是制约居民社区参与的关键因素之一。因此,本
学位