面向深度学习负载的NUMA架构云平台优化问题研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zoook
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
国家十三五规划以来,数据中心迅速发展,其上承载的增值业务越来越多。一方面,数据中心越来越多采用基于NUMA虚拟化并行体系结构的云计算平台构建;另一方面,随着人工智能的快速发展,云平台需要能承载面向深度学习负载的多租户多任务应用,并具有可共享深度学习处理器(NPU)资源的计算框架。这必须解决三方面问题:(1)目前尚无面向NUMA架构具有虚拟化功能的并行计算框架;(2)尚无针对深度学习负载,面向多租户和多任务应用,具有不同类型计算作业共享资源的云计算平台;(3)针对深度学习推理类作业高效优化需求,尚无面向推理作业具有深度学习处理器资源共享功能的多计算框架的优化技术。为此,论文针对这三个问题,重点研究了NUMA虚拟化并行体系结构的访存优化问题、通量型云平台的容器快速启动问题和推理作业计算框架的优化问题。这三方面互相关联,通过对虚拟机访存优化研究,为云平台提供了并行计算的载体;通过对容器快速启动技术研究,降低了面向深度学习负载的云计算平台管理开销;通过对深度学习推理作业计算框架的优化,提高了基于NUMA架构虚拟化计算资源的利用率。论文研究具有理论和实践意义。本文完成的主要工作包括:(1)访存优化问题。NUMA架构中,各节点的处理器访存带宽不同,加上虚拟化管理层的影响,导致虚拟机处理器跨NUMA节点访问内存,从而造成云平台计算效率下降。论文首次提出了一种基于进程绑定的NUMA虚拟机访存优化方案。重点研究了处理器进程绑定技术、与宿主机相适应的虚拟机内存预分配技术和基于保证资源可用的虚拟机调度策略。实验数据表明,针对不同的测试用例和访存场景,该方案较原生云平台虚拟机的访存性能提升幅度可达到20~120%。该研究成果已应用于中科曙光公司云计算操作系统Cloudview产品中。(2)容器快速启动问题。容器启动速度是影响云计算平台运行性能的关键因素。当前以深度学习应用为代表的计算负载由软件服务变为微服务,导致容器数量剧增,造成容器响应速度急剧下降。为此,论文针对及时地启动容器、合理地屏蔽服务和计算资源的信息、高效地动态扩缩容计算服务三个目标,研究提出具有服务扩缩与隔离机制的容器快速启动技术,重点研究基于钥匙容器的生成与启动算法、运行时的服务容器控制算法和容器规模动态扩缩的控制算法。实验数据表明,该技术容器启动时间较传统方法缩短30%,通过多容器调度技术,整体作业运行效率提升53.8%。该研究成果已应用于中科曙光公司多款产品中,包括容器云平台Appfoundry、云计算操作系统Cloudview、人工智能平台Sothis AI和监控管理运维平台Gridview等。(3)计算框架优化问题。计算资源利用率是云计算平台的重要性能指标,深度学习是计算密集型任务,如何高效地调度深度学习处理器(NPU),满足来自不同租户不同应用的深度学习推理任务的计算需求,是至关重要的。论文打破了不同租户和不同应用在资源使用上的界限,创新提出并实现了基于NPU资源池化的虚拟化系统。重点研究了专用的作业调度与加速平台、NPU资源池化方法和NPU细粒度调度方法。实验数据表明,单个NPU设备实现了资源池化之后,在批处理的推理任务中,不同神经网络模型和参数配比可以获得不同幅度的性能提升,提升幅度在493~915%。该研究成果已应用于中科曙光面向人工智能领域开发的深度学习服务平台Sothis AI中。综上所述,论文解决了面向深度学习负载的NUMA架构云平台优化关键技术问题,包括:虚机访存优化、容器快速启动技术和面向深度学习负载的计算框架优化。研究成果已成功应用于中科曙光相关软件产品,效果良好。
其他文献
随着微电子芯片朝着高度集成化、高功率和三维堆叠化方向飞速发展,其面临的散热问题日益严重,传统冷却方式已无法满足散热要求,亟需发展芯片级冷却技术以满足平均热流密度100 W/cm2和局部热点热流密度1000 W/cm2的热管理要求。微流道冷却技术具有传热系数高、微型化和集成化的优点,被誉为微电子元器件最具前景的热管理方法之一。然而随着微电子芯片散热难度持续增加,亟需针对芯片热管理实际面临的高热流密度
镁作为最轻的金属结构材料,有望应用在交通运输、航空航天等领域,从而降低燃油消耗、减少碳排放,促进社会和环境的可持续发展。然而由于镁室温塑性差、强度和弹性模量低等不足限制了其在工程领域的大规模应用。合金化作为一种传统手段被广泛运用在镁合金设计中以期改善镁的力学性能。为了更高效经济地设计新型镁合金,需要弄清合金元素对镁变形力学行为,包括弹性变形和塑性变形的影响规律和机制。目前,对于镁弹性变形行为的理论
随着电子技术的不断进步,电子元器件的能耗不断提高,传统的冷却方式已经不能满足当今电子元器件的冷却需求。鉴于此,一些基于相变冷却方式的新兴冷却技术逐渐受到关注和重视。其中,喷雾冷却技术以其冷却能力强、换热表面温度低且分布均匀、冷却工质需求量少等优点,被认为是解决大功率电子元器件散热的首选冷却技术。喷雾冷却过程中最为基本的现象是液滴撞击固体表面的运动及蒸发传热过程。亲-疏水混合表面是一种同时具有亲水性
近年来,微反应器技术发展迅速,被广泛应用在化工、能源、生物、医药、材料等领域。尤其在化工生产中,微反应器能够强化热质传输,提高反应效率,降低反应能耗,提升操作的安全性,被认为是未来发展的重要方向。催化膜微反应器是一种新型微反应器,融合了微反应器技术与膜技术的优势。尤其是,催化膜微反应器具有微通道结构与膜结构,能够解决常规微反应器内气-液-固三相催化反应时气液界面传质阻力大的问题,从而提高转化率,优
生物质能是绿色环保的可再生能源,加快生物质能开发利用,不仅可以解决化石燃料大量消耗引起的能源短缺,还能改善日益严重的环境污染问题。采用厌氧发酵制氢烷气是一种低成本且可持续的气态生物燃料生产方法,在相对温和的反应温度(35~55°C)和环境压力下,厌氧微生物可以将微藻和木质纤维素类生物质废弃物降解为生物燃气。然而,生物质致密的细胞壁结构限制了微生物对胞内有机质的可及性,阻碍了小分子底物的跨膜传递,导
运行变压器故障特征气体(N2、O2、CO2、CO、H2、CH4、C2H6、C2H4、C2H2)含量是反映油浸式电力变压器故障及老化状态的重要特征量,持续开展多组分特征气体高灵敏度、高精度检测的先进方法研究对保障油浸式电力变压器安全可靠运行具有重要意义。作为光谱气体检测技术,拉曼光谱法利用单波长激光即可实现多组分气体的同时检测,具有选择性高、不易老化、气体组分间无交叉干扰、不消耗样品等优点。然而,气
太赫兹波是频段为0.1THz~10THz的电磁波,在电磁波频谱中处于电子学向光子学过渡的特殊位置,具有高分辨率、安全性、穿透性和对水分的高度敏感性,在生物医学检测领域展示出了巨大的应用潜力。太赫兹时域光谱(THz Time Domain Spectroscopy,THz-TDs)技术是一种相干探测技术,能够同时获得幅值信息和相位信息,有望成为一种具有独特优势的生物医学成像技术。但是目前THz-TD
现代过程工业系统在网络化和信息化推动下规模日趋庞大与复杂,过程监测和故障诊断是保证工业过程稳定运行并确保产品质量的重要技术。由于系统机理复杂、运行状态影响因素多,使得数据驱动的多元统计过程监测等方法得到广泛关注并迅速发展。传统多元统计过程监测方法通常需要满足系统运行在稳定工况、监测变量服从独立同分布、变量间线性相关等条件,由于实际工业过程系统关联复杂,存在设备退化、测量误差、过程噪声等干扰,过程监
智能自主无人机系统在工业、农业、智能交通及国防领域具有广泛的应用前景,这些应用涉及无人机与环境的交互,有诸多关键基础和共性技术需要解决,其中自主导航和飞行控制是最重要和最具有挑战性的问题。模仿学习、强化学习和自适应控制是研究自主导航与飞行控制的重要方法。模仿学习算法从自动驾驶数据和图像分类数据中学习自主导航策略,但这些策略不是来自于无人机操控员;强化学习算法操控无人机与环境交互,探索学习飞行策略以
边缘计算、自动驾驶、高清视频流和工业物联网等新技术和新应用的兴起,加速了高速串行接口的发展,单通道数据速率大约每3到4年就会提高一倍。然而随着速率提升,Ser Des芯片的功耗、信号完整性和电路复杂度等问题也会变得更加严峻,仅靠CMOS工艺的提升不能完全解决这些问题,这也是为什么高速低功耗接收机一直是研究热点。在此基础上,为了提供更加灵活的互连解决方案,降低定制SOC系统的时间和设计成本,并且满足