面向深度学习应用的GPU存储优化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:slim_ning
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于GPU强大的计算能力,其已经成为训练神经网络的首选设备。随着神经网络变得更宽更深,网络模型的准确性得到提升,但是训练这些神经网络需要的GPU内存空间也越来越大。有限的GPU内存容量成为训练更深更宽神经网络的主要障碍。为了解决GPU内存不足的问题,研究人员提出了交换数据到主存和重计算等方法,这些方法使得在前向传播过程中,GPU内存中只保留部分层的输出结果。然而这些方法对层之间的数据依赖关系缺乏深入分析,且对瓶颈层缺乏训练支持。针对这些问题,提出了充分利用重计算节省GPU内存开销的深度学习系统MEDL,其基于重计算的GPU内存管理器分别对非线性和线性神经网络提供GPU内存优化方法。在非线性网络中,通过空间重用和活跃度分析取消将工具层的前向输出结果作为检查点的必要性,工具层的输出所占的GPU内存空间在前向传播中可以直接被释放,从而大量减少使用重计算方法训练非线性神经网络时的内存需求。在线性网络中,通过细粒度的双缓冲技术减少瓶颈层的内存开销,使更宽的神经网络能够在有限的GPU内存中进行训练。实验结果表明,系统MEDL可以在有限的GPU内存中训练更深更宽的神经网络。在相同的实验环境下,与现有的深度学习系统相比,MEDL的内存消耗平均降低了27.5%,而且具有10.9%的性能提升。当不断增加训练的批次大小以至于传统的系统不能训练时,MEDL仍能正常训练。
其他文献
无源定位技术因其具有抗干扰性强、观测距离远、安全性高等优点,被广泛应用到无线电监测、地震学、电子对抗、通信等领域。测向交叉定位技术是研究得最早的无源定位技术之一。其中,运动单站测向交叉定位技术是指单个观测站在运动过程中对目标辐射源进行持续观测,记录每一个观测点的坐标以及目标辐射源的方位角,当累计到足够多的观测数据后,利用这些数据对目标辐射源实现定位。本文以运动单站测向定位技术为主题,针对运动单站测
目的 :探讨T3声门癌喉功能保留手术的方法和临床疗效。方法 :对 75例T3声门癌患者进行手术治疗 ,切除肿瘤后以会厌、双蒂接力肌甲状软骨膜瓣、颈阔肌皮瓣、胸骨舌骨肌筋膜瓣
在滨海吹填土区进行大规模交通建设常遇到地基沉降过大、承载力不足、孔隙水难消散、砂土液化等诸多工程问题。双向水泥搅拌桩因具有充分利用地基原土、扰动小、污染小、防止泥浆上冒、对下卧层产生较小的附加沉降、加固形式多样、造价低廉等优点被广泛的应用在软土地基处理。本文以唐山-曹妃甸新建铁路TCSG-3段双向水泥搅拌桩-网复合地基为研究对象,采用理论分析、实地调研、现场监测、数值模拟相结合的方法,旨在研究路基
教师道德教育的构建应该是从他律到自律的过程,是教师接受外部影响并将道德规范要求内化为自己的道德需要的过程。影响教师职业道德的外部因素很多,例如教师生活的社会环境,
期刊
在加利福尼亚州南部的La Jolla以北的海域进行了一系列实验,实验中将一架单引擎螺旋桨的轻型飞机作为水下测量的声源。接收传感器分别为,海面上方1 m处的麦克风、15 m深海水
针对“CAPWAP程序拟合法”确定桩基极限承载力时出现的技术问题进行分析 ,提出我们的解决方法。
对稀薄低热值气体在往复式热循环多孔介质燃烧系统的"超焓燃烧"特性进行了研究。在模型验证的基础上,阐明了系统"超焓燃烧"产生机理,分析了换向半周期、燃气热值、二次风比等
Sobol序列是准随机序列的一种,它与均匀分布的区别在于采样更均匀,为了增加种群多样性,提出了基于Sobol随机序列的量子粒子群,并对边界粒子进行变异,用于求解电力系统经济调
目的分析大学生2型糖尿病高危人群采用强化生活方式干预的临床效果。方法选择沈阳医学院在校大学中2型糖尿病高危人群20例为实验组,另外选择该校健康大学生20例为对照组。对
本文介绍了在聚类分析中最近发展起来的几种方法,包括模糊聚类、合取概念聚类和大规模数据的聚类,并对不同的方法作出了评价.