面向分布式同步数据并行训练的通信优化技术

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:wergsdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习技术飞速发展,尤其是在大规模数据集的推动下,分布式深度学习系统在学术界和工业界获得了广泛应用。分布式深度学习系统普遍采用同步数据并行来训练模型。同步随机梯度下降(SSGD)作为最常用的分布式同步数据并行训练算法,其在每次一迭代中都涉及网络通信。然而,通信开销在通信带宽受限的分布式环境中是昂贵的。为了降低通信开销,一种直观的方式是增大通信间隔,即不是每一次迭代中都进行通信,而是每隔若干次迭代才进行一次通信。但是,增大通信间隔通常会影响模型收敛的速度,导致训练算法需要更多轮(Epoch)才能将模型训练到目标准确率,即降低了训练算法的统计效率。此外,通信间隔的选择直接决定了训练算法的性能,而现有的通信间隔选择方法引入了昂贵的采集统计信息或调节超参数的额外开销。针对上述分布式同步数据并行训练算法和通信间隔选择方法中存在的问题,本文重点研究兼具低通信开销和高统计效率的分布式同步数据并行训练算法,以及具有低额外开销的通信间隔选择方法。围绕这些研究内容,本文的主要贡献有如下三点:提出了一种结合跳过通信策略和纠正技术的训练算法,保证了低通信开销和高统计效率。该训练算法通过在每个训练进程中进行本地更新保持了小的批量大小,并采用纠正技术降低了各个本地模型之间的发散程度,从而保证了高的统计效率。同时,该训练算法采用跳过通信策略来更新全局模型,即不是每一次迭代都对全局模型进行更新,而是每隔若干次迭代才对全局模型进行一次更新。这降低了通信的频率,从而保证了低的通信开销。设计了一种基于第一次迭代运行时统计信息的自适应通信间隔策略,降低了通信间隔选择的额外开销。该自适应通信间隔策略初始化通信间隔为1,并在第一次迭代中收集用于通信和计算的时间,然后基于这些收集的信息对通信间隔进行调整,以使每一轮中的通信时间和计算时间是相近的。在第一次迭代中完成通信间隔的调整后,该通信间隔应用于后续所有的迭代之中。后续迭代中不再进行统计信息的采集以及通信间隔的调整,从而保证了低的额外开销。实现了一个采用上述结合跳过通信策略和纠正技术的训练算法以及自适应通信间隔策略的原型系统。本文基于分布式深度学习系统Tensor Flow实现了上述结合跳过通信策略和纠正技术的训练算法以及自适应通信间隔策略,验证了该训练算法和通信间隔策略的有效性,并阐述了相应原型系统的设计思路。综上所述,本文针对分布式同步数据并行训练的高通信开销问题,提出了通信优化的训练算法与调优策略,并实现了一个原型系统。实验结果显示了上述通信优化技术的有效性,具体来说,结合跳过通信策略和纠正技术的训练算法比SSGD训练算法降低了88.9%的总训练时间,自适应通信间隔策略比现有的通信间隔选择策略降低了三个数量级的额外开销。
其他文献
在商品经济条件下,生产的目的是为了交换,通过商品交换,劳动者获得了满足生存和发展需要的劳动产品。在商品交换和流通的过程中,表面上看是物与物交换的关系,实质上隐藏的是人与人之间交换劳动的关系,物与物的关系往往掩盖了人与人的关系。由于人的需要都必须通过商品来满足,尤其在资本主义的商品经济条件下,大量商品的堆积,特别是从商品到货币的“惊人的跳跃”不能完成时使商品生产者感到无法主宰自己的命运,于是,商品就
学位
随着柔性可穿戴电子设备的迅速发展,柔性可穿戴设备已经在人体运动监测、医疗健康、人工智能、能量储存设备等领域展现出巨大的市场前景,而传感器作为可穿戴设备的核心部件也备受关注。目前已经投入应用的柔性可穿戴传感器一般是以弹性体或聚合物薄膜作为基质,但是它们的拉伸性低、生物相容性较差、并且缺乏功能性,这些因素阻碍了其作为可穿戴传感器的进一步发展。水凝胶作为一种具有良好生物相容性、能实现多功能化的软材料,已
学位
宫颈癌是全球女性中最常见的恶性肿瘤之一,防治宫颈癌主要有疫苗接种、筛查和治疗三种途径。磁共振成像被认为是宫颈癌诊断的最佳影像学检查技术,提高宫颈癌肿瘤区域的磁共振影像识别精度对降低女性宫颈癌死亡率具有重要意义。由于生物医学图像本身存在的异质性和低对比度等特点,当前宫颈癌病灶识别方法主要存在以下问题:(1)以往对宫颈癌病灶识别的研究较少,缺少标准的磁共振影像数据集;(2)当前的宫颈癌识别算法对小病灶
学位
同步定位与建图(Simultaneous Localization And Mapping,SLAM)赋予了移动机器人感知周围环境并进行自主定位与建图的功能,近年来被广泛应用于智能家居、无人驾驶与虚拟现实等领域。其中,基于相机传感器的视觉SLAM具有成本低、易用性强以及信息量丰富等优点,受到了广泛的关注。尽管视觉SLAM取得了许多研究成果,但是仍然面临着诸多挑战。首先,传统的视觉SLAM方法通常仅
学位
随着电动汽车和固定式储能的快速发展,需要可持续供应的能源以满足市场的未来需求。钠离子电池(SIBs),由于地球上丰富的钠储量及其与锂离子电池(LIBs)相似的化学性质,成为了目前已经商业化的LIBs的理想代替品之一。正极材料是影响SIBs实际性能的决定性因素之一,本文选择比容量较高、制备方法简单的Na3V2(PO4)3和Na0.63Li0.21Mn0.79O2为研究对象,采用以磁共振技术为主,结合
学位
随着近年来深度学习的蓬勃发展,在自然语言处理领域,基于深度学习的文本分类算法已经取得了很好的分类效果。不过目前基于深度学习的文本分类算法往往需要大量标注数据才能得到较好准确率,而在一些特殊领域,训练数据不足是一个不可避免的问题,数据的收集非常复杂与昂贵,这使得建立一个大规模、高质量的带标注数据集变得非常困难。因此,小样本文本分类问题成为了当前研究的一个热点。本文首先对当前小样本文本分类问题中,重要
学位
处于经济文化全球化背景下的民宿作为一种新兴旅游空间形式和产业业态,在政府政策激励下逐渐发展为实现乡村振兴的一种结构性力量。民族旅游社区情境下的民宿发展伴随社区“历时”发展轨迹呈现不同的空间表征,但其微空间建构必然离不开“地方”属性。旅游影响下的空间建构,是将其建筑空间的“时空”演变压缩在一个有限的物质微空间,将不同的时间、空间融合在一个有地方意义的生产框架之下,其空间意义和建构过程、机制值得探讨。
学位
我国为大力发展半导体行业,加大了政策扶持力度并鼓励企业开展并购重组活动,同时还倡导国产化替代和产业链自主可控,掀起了半导体企业战略并购的风潮。本文选取韦尔股份并购北京豪威、思比科和视信源这一行业内并购成功的典型案例,以并购方在并购前后市场和财务绩效的变化作为切入点,探究韦尔股份的并购效果。通过借鉴相关文献、梳理并购的背景和过程,本文研究了韦尔股份并购的动因。在此基础上,本文主要运用事件研究法、财务
学位
数据智能时代,数据成为新型基础性生产要素,数据管理知识领域的革新也正悄然酝酿,对数据管理知识进行系统梳理和组织具有重要意义。文献知识库是知识组织的重要方式。针对目前文献知识库普遍存在的收录范围广泛、主题集中性不高、文献质量难以保证等问题,本研究旨在探索领域文献知识库的构建方式,并构建了一系列主题聚焦、适宜研学、质量可靠、基础与前沿并重的数据管理文献知识库,以实现对数据管理知识的高效、集中性组织,促
学位
人工智能是引领未来经济社会发展的关键技术之一,近年来世界各国纷纷将其上升至国家战略层面。图书馆事业中人工智能同样火热,并得到了广泛研究与应用,公共图书馆中也出现了基于人工智能的智慧化服务。对于公共图书馆而言,这正是一个谋求变革与创新的机会。所以,充分了解人工智能在国内外的公共图书馆智慧化服务中的应用及现状,并以上海地区为案例对上海的公共图书馆进行调研,分析其不足并借鉴其优秀做法,有利于促进人工智能
学位