基于混合并行编程模型的ADMM算法研究与应用

来源 :上海大学 | 被引量 : 0次 | 上传用户:daliangengbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据是当今数字化信息社会的最关键特征之一,传统的运行在单机上的机器学习算法面对爆炸式增长的数据无法满足存储和计算的需求。高性能计算系统的发展为算法并行化提供了强有力的平台。充分利用高性能计算系统的资源,设计并实现高效的分布式算法是需要研究解决的问题。交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)是一种具有分解性和收敛性的优化算法,它可以将原始问题分解为多个子问题,通过协调子问题的解得到全局解。这种分解协作的过程,能够灵活地利用分布式环境的优势。本文根据分布式ADMM算法的原理和特征,结合现代高性能计算系统的结构优势,以ADMM算法分布式实现中的编程模型层为研究切入点,设计实现了更细粒度并行性的ADMM算法。主要的研究内容和创新点如下:(1)为了充分利用现代高性能计算系统的多节点多核心计算资源,结合分布式ADMM算法的分层交替迭代特征,本文设计了一种混合MPI/Open MP并行编程模型,并基于此模型设计实现异步分层ADMM算法(Asynchronous ADMM algorithm based on a hybrid MPI/Open MP programming model,AH-ADMM)。该算法在节点间基于MPI实现并行化,在节点内基于Open MP实现更细粒度的线程级并行化,通过使用多线程代替多进程计算子问题,减轻了内存和通信的压力。同时,针对支持向量机(Support Vector Machine,SVM)问题,设计了高效的并行化策略加速子问题的计算。AH-ADMM算法在提高单节点计算能力的同时,可以在高性能计算系统上更好的扩展。(2)针对ADMM算法子问题计算开销大以及广泛存在的数据不均衡问题,本文结合分布式ADMM算法子问题求解的独立性和灵活性,提出一种基于混合MPI/Open MP并行编程模型的分治ADMM算法(Divide-and-conquer ADMM algorithm based on hybrid programming model,DCAH-ADMM)。本文针对节点内数据子集的类别不均衡和节点间数据子集的密度不均衡两种情况,通过动态调整节点对应的局部惩罚项参数,平衡各个节点的收敛程度,以此提高整个算法的收敛速度。在节点内,使用代价敏感支持向量机作为分类器处理样本类别的不平衡;在节点间,各个节点依据本地数据子集特征模型,选择更优的子问题优化算法进行子问题求解。文中设计实现的DCAH-ADMM算法通过对计算节点实行分而治之,节点内的代价敏感子问题模型提升了算法在不均衡数据集的分类效果,节点间实现的更细粒度并行化控制提高了算法总体的运行效率。(3)本文设计了一类ADMM求解子问题接口,基于该接口和混合并行编程模型开发实现了基于分布式ADMM算法的线性分类库ADMMLC。该代码库主要适用于训练大规模支持向量机和逻辑回归等线性分类模型。用户可以通过子问题接口快速高效地加入新的子问题优化算法,或直接输入参数进行模型的训练。ADMMLC使用户无需过多关注分布式ADMM算法复杂的底层机制,为算法设计者提供高层编程模式,以根据具体应用场景选择合适的子问题求解算法,提高并行算法可扩展性。本文针对支持向量机问题,对提出的算法研发了并行程序,在“天河二号”和“自强4000”两个高性能计算系统上进行了测试。实验结果显示,与其他基于纯MPI编程模型的分布式ADMM算法相比,AH-ADMM算法最多可以减少86.7%的运行时间,能够在最多193个计算核心的集群上更好地扩展。针对分布式数据不均衡问题,在AH-ADMM算法的基础上提出DCAH-ADMM算法,进一步提升了算法的运行效率,并增强了训练模型的鲁棒性。
其他文献
湘南大义山复式花岗岩体为南岭地区重要的锡多金属成矿岩体之一,具有多期次、高分异演化特征。以往调查研究工作多注重锡矿,而锂铷等稀有金属矿勘查研究则相对薄弱。为了指导区域综合找矿评价,本文在系统分析大义山高分异花岗岩及其赋矿特征的基础上,总结了近年来该区锂铷矿的调查研究成果。区内锂铷矿化类型以蚀变花岗岩体型为主,其次为云英岩型、伟晶岩型。岩矿鉴定及电子探针分析显示,成矿元素Li、Rb主要赋存在云母中,
期刊
高温合金是一种能在较高温度环境下(一般在600℃以上)及较大应力条件下稳定服役工作的金属合金材料,不仅具有优异的高温力学性能、疲劳性能、断裂韧性,还具备很强的抗氧化和抗热腐蚀等性能。Re因其高熔点和抗氧化性被越来越多地添加到新一代镍基高温合金以增强其性能。但是Re的引入很容易造成σ相或者χ相等有害的TCP(Topologically Close Packed)相的析出。该相硬而脆,在拉伸应力的作用
学位
床面形态驱动的潜流交换是河流水环境系统中一种重要的对流过程,影响水、溶质、污染物、胶体、细颗粒在上覆水和底床孔隙水之间的迁移转化和通量过程,对河流生态系统健康和功能起着非常重要的作用。床面形态构成单元的几何特征和渗透率是影响潜流交换通量的重要因素,二者对潜流交换特性的综合影响尚待深入研究。本文通过实验室环形水槽实验,结合数值模拟,主要研究存在床面形态(包括沙波和二维离散床面形态)砂质底床条件下,床
学位
破产案件数量快速上升。自企业破产法2007年正式实施以来,全国法院共受理破产案件逾5.9万件。破产是对创业的保护,也是创业者从创业失败中脱离的一类重要途径。既有研究从宏观层面探索破产制度对创业活动的影响,认为友好型的破产制度有利于创业者再创业,但忽视了创业者经历破产事件的异质性对其随后创业决策的影响。据此,本研究探究破产事件的两类性质对创业者随后创业三类重要决策的影响,具体而言,本文研究并检验破产
学位
随着互联网的普及和认知盈余时代的到来,在2016年迎来了知识付费元年,知识付费平台短暂地井喷式增长后随即迎来了发展的冷冻期,2019年第一季度知识付费行业规模和用户规模增速下降趋势十分明显,知识付费行业出现使用时长降低、复购率降低、完课率降低的“三低”问题,且知识付费平台服务质量问题频频出现。针对知识付费平台用户对付费知识产品持续使用行为不高的现状,可通过准确测度优化知识付费平台存在的服务质量问题
学位
信息技术时代的到来,几何画板逐渐成为了各学科教学中提倡的教学手段。本文以高中物理教学中力学和运用学为基础,阐述几何画板的特点和优势,分析几何画板在高中物理力学和运动学中的应用原则,进一步探究几何画板在高中物理力学和运动学中的应用。旨在通过本文的论述能够合理利用几何画板优势,全面提高高中物理教学效率。
期刊
产品的可靠性是前期设计产品和后期制定维修方案的重要参考依据。传统可靠性评估方法大多建立在产品失效数据的基础之上。然而,对于高可靠、长寿命产品,很难在短时间内通过寿命试验获得足量的失效数据。产品的退化过程包含大量与产品寿命相关的信息,使得基于性能退化数据的可靠性分析成为可能。目前,大部分关于产品退化建模的研究仅关注产品性能的退化轨迹,忽视了使用环境和条件的动态性及其对退化过程的影响,具有一定的局限性
学位
数智时代背景下,以纳米技术、人工智能、基因工程等为代表的新兴技术的发展,在带来高速流通信息、突破性研究进展及便利生活方式的同时,也往往暗藏着当下难以判别但未来可能影响深远的重大隐患和危机。目前,学术界对责任式创新的理念内涵、理论框架等进行了一定探讨,强调更大范围内的异质性利益相关者协同治理,但是在多主体协同过程中容易出现权责不清、协同不力等“多手问题”,而且一旦责任比例归咎失当,还会引发责任失衡风
学位
结合参与设计和咨询审查的多条高速公路改扩建项目,针对桥梁改扩建关键技术,进行总结研究,以期对工程技术人员有一定的指导意义。
期刊
数值模拟是对流体力学现象分析的一种新兴技术,它利用计算机求解流体的流动控制方程以得到流体的流动状态,从而得以分析流动现象。数值模拟方法在算法参数设置合理的情况下能达到很高的计算精度,但是它的计算成本非常高昂,并且无法满足实时性的需求。降阶模型是用于代替复杂的动力学控制方程模型的一种近似模型,它在可接受的时间范围内和有限的存储容量内执行仿真,并得到足够可靠的结果。降阶模型具有极快的模拟速度以及较为精
学位