面向异构平台的深度学习并行优化算法研究与实现

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:grindswods
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,深度学习迎来了又一个发展的春天。当今,深度神经网络已逐渐成为学术界和工业界的研究热点。深度神经网络的识别准确率已远远超过了传统机器学习算法,并在图像识别、语音识别等领域大放异彩。其中,就包括现如今十分火热的深度置信网络模型。深度置信网络是一个基于无监督学习理念的深度神经网络,由Geffrey Hinton教授提出。深度置信网络普遍运用于图像识别、文字识别等领域,而且均取得了不错的准确率。但是,深度置信网络也常伴随着模型维度过高、数据计算量过大的问题,使得其训练过程往往较为缓慢。而随着计算机硬件技术的不断发展,使用异构计算资源对程序算法做并行优化已成为并行计算领域的主要手段之一。本文针对深度置信网络训练效率慢的问题,提出了面向异构平台的并行优化算法来加速其训练过程。首先,一个好的串行优化算法是并行优化算法的基础,为了更好的研究深度置信网络并行优化算法,本文提出了一种基于单核CPU平台的深度置信网络串行优化算法。为了方便算法后期性能优化,本文使用C语言实现深度置信网络。同时针对深度置信网络串行算法的性能瓶颈,使用BLAS库优化矩阵运算部分,使用循环展开+矩阵运算、空间换时间等策略优化循环结构部分。与串行算法相比,深度置信网络串行优化算法取得了2x的加速。其次,在串行算法研究的基础上,为了解决粗粒度任务模块并行算法设计困难以及异构平台计算资源分配的问题,本文提出了粗粒度任务分解策略与子任务调度策略。通过任务分解策略,使粗粒度模块化任务划分为细粒度子任务,从而更加容易设计并行优化算法;通过子任务调度策略,充分利用异构平台的计算资源,使训练过程中的计算任务负载均衡。最后,为了解决深度置信网络训练慢的问题,本文提出了面向异构平台的深度置信网络并行优化算法。在任务分解策略以及子任务调度策略的基础之上,采用数据并行和任务并行的方法优化各细粒度子任务。本文使用MNIST手写体数据集测试。与串行算法相比,取得了近10x的加速比;与串行优化算法相比,并行算法取得了4.5x的加速比。
其他文献
<正>"功和机械能"这一章考查的重点知识有功、功率的概念和计算,斜面和滑轮组的机械效率,动能、势能的影响因素及相互转化等。由于概念较多,且概念间相互交叉,再
我国《国家赔偿法》自颁布实施以来,在限制国家权力滥用,维护公民、法人和其他组织的合法权益,保障其依法享有取得国家赔偿的权利等方面都起到了积极作用。但是,《国家赔偿法
言语识别研究的基本对象是言语。言语不同于语言。言语具有的物质性、具象性和表义性构成言语的能解性,使得言语现象可以作分析研究。言语作为主体主观因素和客观条件的综合
网页预览是搜索引擎的又一便利性功能,具有多种类型。网页是一种作品,其作者享有网页著作权。由于网页作品的易复制性和易传播性,网页著作权具有易受侵害性。网页预览技术的
目的探讨心胸外科术后患者呼吸机脱机时间的选择对其术后恢复的影响。方法选取120例行开胸手术患者,按入院顺序平均分为两组,观察组按照脱机指征实施早期脱机,对照组予以呼吸
电子商务作为一种全新的营销方式,与传统营销方式相比具有独特的特点,为企业创造了一个良好的发展空间。但我们在看到电子商务不同于传统营销的许多优点的同时,应该清醒地认
目前,在国内外所研制的精密机床和其它精密制造装备中,最常用的精密进给系统主要采用伺服电机控制精密丝杠的传动方式和直线电机直接驱动进给方式。和精密丝杠副传动进给方式
研究目的:构建系统、完善的我国男子400米运动员运动素质训练指标体系;提供合理、实用的我国男子400米运动员运动素质训练指标的监控模式。制定科学、规范的我国男子400米运
针对当前单帧条纹技术存在的精度受到影响等问题及传统相位测量轮廓术受多帧采集限制的情况,提出了一种基于单帧变形条纹的空间等步相移轮廓术。先提取所采集的单帧变形条纹
对于不考虑保质期的商品采购策略问题 ,目前已有不少较好的研究成果 .本文通过讨论商品的保质期和销售利润之间的关系 ,研究了具有保质期的商品采购策略问题 .通过将同种商品