基于GPU服务器的分布式机器学习平台研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hustguoguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习领域内,随着近年来训练样本数量爆炸式提升以及训练模型的不断增大,单机性能难以支撑人们的训练需求,分布式机器学习成为了越来越多研究者的选择。在分布式机器学习中,训练任务由服务器集群完成,集群中的不同工作节点之间需要共享局部数据并聚合局部模型。因此,相较于单机机器学习,通信量的大幅提升是分布式机器学习平台的重要特点。对分布式机器学习平台通信调优也成为了提升其效率的一大关键。目前已有的分布式机器学习平台通常采取传统的同步并行机制以及基于平面的同步算法。收敛效果与算法效率无法兼顾,在计算力差异较大的集群中甚至会出现无法收敛或者异常节点影响全局同步的极端情况。而基于平面的传统同步算法设计基于简单网络,在规模越来越大的新型数据中心网络拓扑中可能会造成并行性能差、转发量大等问题,严重影响性能。基于这些问题,本文的主要工作如下:(1)本文从同步并行机制优化入手,提出了一种基于延迟异步并行的通信算法并在数学上证明了该算法的收敛性。我们将该算法与传统的同步通信算法与略与延迟异步并行通信算法在三种神经网络下用三种经典数据集进行测试,证明新算法的效率是同步算法的约1.40倍,是延迟异步并行算法的约1.29倍。(2)本文基于Pytorch分布式机器学习平台对其进行改进,通过外部控制线程实现了分布式集群服务器之间的通信、参数更新等核心操作,从而实现了对分布式机器学习通信的外部控制并提供了相应接口。大大方便了使用者对分布式机器学习平台通信的研究。(3)本文在提出并分析了针对于现代化数据中心网络大规模GPU集群的分层同步算法在理论上的一轮通信时间。并与传统算法在新式数据中心网络中的理论表现做对比,分层同步算法的一轮理论通信时间较传统同步算法缩短了40.0%-68.7%,证明了分层同步算法在大规模GPU服务器集群中的优越性。
其他文献
企业的生产经营过程中会形成大量的档案,这些档案可为企业未来积累丰富的经验,具有重要意义,为此越来越多的企业开始重视档案管理工作。然而档案的保存是一个综合课题,档案的保存周期与库房的各项物理条件息息相关,若保存不当,则档案保存周期非常短,因此需要有一套行之有效的方案来实现自动化管理,基于此,中国移动自贡分公司领导提出构建远程档案库房监控系统。从中国移动自贡分公司综合部实际应用需求出发构建了库房监控系
基于相位敏感型光时域反射仪(phase-sensitive optical time domain reflectometer,Φ-OTDR)的光纤分布式声波传感(distributed acoustic sensing,DAS)技术因其传感点密集、灵敏度高、传感距离长等优势而逐渐成为新一代的声波感知技术。DAS技术利用光纤的后向瑞利散射光的相位信息,可对光纤沿线微小扰动信息进行声波信号的探测,从
基于Φ-OTDR技术的分布式光纤振动传感系统通过检测瑞利散射光信号中所携带的相位信息进行传感,用以实现高密度、长距离的分布式振动传感,目前已广泛用于石油物探、结构健康检测、管线安防等领域。Φ-OTDR系统虽可实现分布式振动探测,但相比于点式光纤地震检波器其灵敏度不高,对微弱振动信号无法有效探测,限制了其在地震勘探中的应用。本文主要研究基于Φ-OTDR系统的矢量光纤地震检波器,通过声波增敏提高系统在
随着用户数量的增加以及用户对服务质量要求的提高,基于软件定义网络(SDN)实现的网络资源管理与控制变得越来越困难。很多中心控制的网络管控问题都可以被建模成NP难的组合优化问题,在当前的设备求解能力下几乎不能在短时间内获得最优解。本文基于训练好的神经网络可快速推断这一优势,设计出了基于深度学习的网络管控问题求解框架,此框架可以学习网络管控问题历史求解经验,使用神经网络直接求解新的网络管控问题。利用此
多元时间序列预测是机器学习领域非常重要的问题,可以应用在多个领域,比如电力消耗、交通拥堵情况以及疾病预测等。随着时间维度的引入,数据的维度和规模会大大增加,因此会带来一系列问题,比如梯度消失、梯度爆炸、以及无法很好地捕捉数据短期和长期间的依赖关系等。在医学领域,急性肾损伤(Acute Kidney Injury,AKI)需要医生根据患者的历史状态进行经验性的诊断,根据患者的真实数据本文发现医生对于
基于相敏光时域反射仪(Φ-OTDR)的分布式声波传感系统(DAS)被广泛应用于安全监测。真实环境中振动源时变与干扰时刻存在,导致采集的DAS传感信号比在安静环境或实验室环境中更易出现未知畸变和冲击,这意味着实际环境中信号实际蕴含的振动模式易被其它干扰振动源的振动模式掩盖,信号特征易被其它干扰振动源的特征模糊化甚至擦除,使得时变、多振源干扰的复杂环境下振动源识别难度大,识别率亟待提高。为了解决这一问
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)作为一种多载波调制技术,以其高频谱效率、对多径效应的鲁棒性、以及基于快速傅里叶变换的可实现性而备受关注,目前已经在现代通信系统中得到了广泛应用。然而,在OFDM系统中,较大的信号包络波动是其主要的缺点。由于发送端的放大器(Power Amplifier,PA)的线性范围有限,若信号峰值过高
随着互联网的迅速发展以及用户的激增,网络流量数目正在攀升,网络环境也变得日益复杂。为了实现网络管理和网络安全的需求,网络流量分类技术研究的重要性越发凸显,但传统的流量分类方法已经不能适应现代互联网的发展趋势。而随着人工智能领域的蓬勃发展,越来越多的研究者开始将机器学习技术应用在网络流量分类方法的研究之中。虽然已有很多研究为网络流量分类领域做出了有价值的贡献,但仍存在着一定的问题。真实网络环境中,获
语音关键词检测是近年来新兴的、热门的一项技术,此项技术能够从环境中检测特定的语音内容,目前已经得到了广泛的应用,比如智能音箱、语音助手等。近年来,由于神经网络在各个领域的成功应用,这也极大地促进了语音关键词检测技术的发展。尽管当前主流的关键词检测技术在预置关键词上已经能够获得极高的识别准确率,但是却仍然存在无法支持用户自定义关键词,或者在自定义关键词准确率极低的问题。为了解决上述问题,本文创新性地
在众多物联网的新兴技术中,数能一体化网络技术由于其能够延长能量受限节点的寿命,受到了相当大的关注。而自适应调制、发射功率控制等链路控制技术能够在不同信道等环境条件下,通过调节链路控制方案,来提高吞吐量、可靠性等性能。因此,在数能一体化网络这种新型通信网络中引入自适应链路控制技术是很有必要的。在过往的数能一体化网络技术的研究中,很少研究涉及自适应调制、自适应功率控制、自适应能量传输控制以及自适应多用