【摘 要】
:
近年来,功能不断丰富的硬件设备使得计算环境变得越来越多元化。随着众多加速器的出现,异构系统以其独特的性能优势迅速抢占通用计算市场,逐渐成为了高性能计算领域的主流平
论文部分内容阅读
近年来,功能不断丰富的硬件设备使得计算环境变得越来越多元化。随着众多加速器的出现,异构系统以其独特的性能优势迅速抢占通用计算市场,逐渐成为了高性能计算领域的主流平台。然而,由于异构系统中存在许多制约程序运行效率的因素,且应用迁移过程中缺乏对运行瓶颈的深度分析和性能优化,造成实际加速效果与系统性能相差甚大,从而导致计算资源的浪费。此外,不同HPC应用之间特定依赖库的相互干扰,也是导致异构系统资源利用率低下的原因之一。虽然Docker容器为同一异构平台中运行不同HPC应用提供了新的解决思路,但由于其自身的权限提升问题和资源管理机制与HPC应用场景存在冲突,因而在扩展性和功能性方面大打折扣。为了解决上述问题,本文以HPL这一主流的HPC应用为例。通过优化程序的运行效率和研究应用容器化方案,有效地提高了系统资源利用率和应用的可移植性。本文主要包含以下三部分:(1)结合异构系统和并行应用的计算特点,分析多进程间的数据布局,对比以CPU为中心和以GPU为中心两种不同任务负载模型的传输开销。并且基于实验验证了后者能有效减少数据传输,有助于加速高阶矩阵的分解计算;(2)提出针对异构系统的程序性能优化方案,通过异步迭代的方式加速应用计算,引入双缓冲、多流水执行、自适应任务划分和基于GPU的多线程并行等多种方法提高了程序的浮点运算效率,并通过优化前后的程序性能对比验证提升效果;(3)结合Singularity容器技术设计一种面向HPC应用的容器化方案,并基于该方案分别在单节点和多节点两种不同的运行环境中进行测试对比,从而证明了该研究方案的有效性和可行性。
其他文献
以语篇作为翻译的研究单位时,译者首先考虑的应当是语篇的核心因素——衔接。语篇的衔接不仅体现在句子的内部结构和句子的前后连接上,也体现在段落之间的呼应及整个语篇的谋篇布局上,只有具备语篇衔接意识,才能准确地理解原文,合理地构建译文。由于英汉两种语言在语篇衔接方面存在差异,如何在翻译过程中使得源语文本的意义、逻辑和风格在目标语文本中传达出来,从而达到等值效果,尽可能地减少读者的理解障碍,成为值得研究的
目的:近些年,关于正念的研究越来越多,正念在心理学、医学方面应用广泛且取得了显著成果,在体育竞技方面的应用也不断增加,通过对运动员的干预训练,运动员在比赛成绩上有了明显的提升。但是正念在大学生学习运动技能方面应用较少,本文是在总结前人有关正念训练、正念训练与体育运动等研究的基础上,对大学生进行八周的正念训练干预,探究正念训练干预下心境变化对大学生篮球罚篮成绩的影响,探索正念训练在大学生运动学习方面
近年来云计算规模不断扩大,伴随着容器技术的迅速成熟,采用容器即服务(Container as a Service,CaaS)的云数据中心市场占用率愈来愈高,由此带来的能耗问题日趋明显。在云数据
半导体行业发展迅猛,已步入纳米时代,对掩膜版线宽进行精确测量并将其测量值溯源至国际长度基准的问题急需解决。针对这一问题,中国计量科学研究院研制了计量型紫外光学显微
随着近年来我国社会工作事业的持续发展,城市社区的服务内容日益丰富多彩,服务质量不断提升,特别是面向老年人、儿童的社区服务项目层出不穷。这些专业服务大多运用小组工作方法、个案工作方法或综融社会工作方法开展,在很大程度上缓解了服务对象面临的困难和问题。在服务过程中,如何选择恰当的专业方法模式或结合本土实际进行方法模式的创新以增强服务效果、进一步提高服务对象的福祉,是社会工作者经常思考的问题。本文基于作
三维多输入多输出(3 Dimensional Multiple Input Multiple Output,3D MIMO)技术充分利用了水平和垂直维的天线自由度,可以更好地抑制系统中的干扰并有效提升系统容量,已经成为了5G移动通信的核心技术。为了进一步提高3D MIMO系统和速率并减小系统中的干扰,本文研究了3D MIMO系统的干扰抑制技术,主要研究了3D MIMO系统预编码方案,具体研究工作如
由于量子计算机能够攻破传统的密码算法,这样在量子计算机即将来临的时代,设计抗量子计算机攻击的密码算法也越来越重要。基于格的一些计算问题如最短向量问题()、带误差学习
目的:下尿路功能障碍是帕金森病常见的非运动症状,严重影响患者的生活质量。本研究旨在探究帕金森病患者下尿路症状的发生情况及其相关影响因素,从而指导临床的诊断、评估和
压缩感知[1](Compressed Sensing,CS)是一种新型的信号压缩采样方法,在信号本身稀疏或者可以在某个域稀疏表示的条件下,可以用很低的采样率欠采样得到信号的测量值,然后使用某种数学方法进行精确重构。随着研究的深入和实际信号处理场景的复杂化,普通的稀疏结构和单天线的信号场景已经远远无法满足压缩感知在实际场景中的应用,基于此,块稀疏理论[2,3]和分布式压缩感知理论[4](Distri
随着电子战中电磁环境的日益复杂,电子侦察接收机需要覆盖的频率范围越来越大,这对ADC芯片采样率的要求也就越高,后续的信号处理以及数据的传输与存储也面临巨大的压力,因此传统的Nyquist采样定理已经成为对宽频带电子侦察信号进行参数估计的瓶颈。针对上述问题,本文首先提出了基于压缩感知理论的宽频带电子侦察流程,并将超宽带非均匀采样技术与压缩感知理论相结合。针对实际应用中的基不匹配问题,提出了无网格稀疏