【摘 要】
:
随着高性能计算的发展,HPC系统的规模和复杂度大幅度增加,其计算能力从P级向E级发展。这就为并行程序的移植和优化带来了极大的挑战。并行程序向大规模HPC系统移植时通常面临着执行效率低、可扩展性差的问题,难以充分利用硬件系统的计算资源。这会造成HPC系统计算资源和电力资源的浪费,增加运行成本。此外,由于电力成本和供电系统的限制,功率也已成为大规模HPC系统尤其是未来E级系统的关键设计约束。这就需要针
论文部分内容阅读
随着高性能计算的发展,HPC系统的规模和复杂度大幅度增加,其计算能力从P级向E级发展。这就为并行程序的移植和优化带来了极大的挑战。并行程序向大规模HPC系统移植时通常面临着执行效率低、可扩展性差的问题,难以充分利用硬件系统的计算资源。这会造成HPC系统计算资源和电力资源的浪费,增加运行成本。此外,由于电力成本和供电系统的限制,功率也已成为大规模HPC系统尤其是未来E级系统的关键设计约束。这就需要针对并行程序构建性能预测模型,发掘程序的性能和扩展性瓶颈,并在功率约束下根据系统和应用程序的特征提出相应的协同优化方法,进而提高HPC系统能效。本文针对HPC系统并行程序性能预测和能效优化问题,开展了一系列研究工作,具体包括以下几个方面:首先,为了在HPC程序大规模移植之前,在目标系统的小规模原型系统或子集上实现程序可扩展性预测,本文提出了一种基于编译级中间代码的HPC程序可扩展性预测方法。该方法将编译技术与细粒度的回归分析相结合,对HPC程序的计算和通讯进行分开建模。为了降低建模的成本,本文在计算预测模块提出了混合基本块插桩和代码删减算法,在通讯预测模块采用了细粒度的回归建模方法。整个过程不需要领域专家的指导,实现了性能建模的自动化。在Taub集群和天河二号超级计算机上的利用真实HPC应用程序进行实验。结果表明,对于不同的应用程序,该方法所实现的预测误差在0.35%到11.61%之间,平均误差为4.28%。与传统基于回归的预测方法相比,该方法在预测应用程序在大规模环境下的性能时具有更高的准确性。其次,为了在HPC程序大规模移植之后,在目标系统上实现程序的多参数性能预测,本文提出了多参数性能建模与预测方法。该方法以基本块频率为特征,采用机器学习算法自动构建具有较高泛化能力的多参数性能模型。为了减少预测开销,本文提出了一些特征过滤策略来减少训练阶段的特征数量,并为每个目标程序构建了名为BBF collector的串行程序,以便在预测阶段快速收集特征值。在天河二号超级计算机上利用真实的并行应用程序进行测试。结果表明,相比于其他基于输入参数的性能建模方法,本文所提出的以基本块频率作为特征的方法具有更好的预测效果,其平均预测误差为6.33%,平均预测开销小于原程序执行开销的0.13%。然后,为了便于对HPC程序跨平台移植性能进行评估,本文提出了一种面向HPC应用的通用基准测试程序自动构建方法,该方法以原始程序的跟踪日志作为输入,自动生成能够完全反映原始程序计算、通讯和I/O特征的高保真基准测试程序。在Taub集群和天河二号超级计算机上利用真实的并行应用进行实验。结果表明,所生成的基准测试程序能够准确地保持原始并行应用的性能特征,可以准确预测原始应用程序的性能。此外,可以按比例减少循环的迭代次数来缩减基准测试程序的执行时间,从而减少预测开销。该方法在性能预测上比原程序执行速度提高了10倍,且平均预测误差小于10%。最后,为了对功率约束系统中功率分配策略和HPC程序能效进行优化,本文将功率上限与非核频率缩放相结合,提出了一种在功率约束系统上预测并行应用的帕累托最优功率上限配置方法。该方法首先利用精心设计的微基准测试程序和少量已有的基准测试程序建立训练集,然后采用多目标机器学习算法,将单目标堆叠方法与极限梯度提升相结合,建立性能和能量的多目标模型。这些模型可用于预测最佳处理器和内存功率上限配置,帮助计算节点执行细粒度的功率上限分配。当确定最佳功率上限配置时,利用非核心频率缩放进一步优化系统能耗。与参考功率上限配置相比,该方法可以将系统所需的功率上限降低31.35%,平均能耗降低12.32%,平均性能损失仅为2.43%。
其他文献
砌体是工程中应用最广泛的材料之一。由于其复杂的工作行为具有很大的变异性,现有的分析方法难以准确实现对砌体结构的预测。因此,改进分析方法或者开发准确预测工作性能的创新技术,是非常必要的。本文提出一系列创新的预测方法,应用细胞自动机(CA)、神经网络(NNs)和量子纠缠(QE)原理,模拟预测砌体墙板开裂模式和破坏荷载。建立细胞自动机模型预测横向荷载作用下的砌体墙板开裂模式,分别采用级数和指数两种方法计
森工城市转型是东北振兴的重要组分,也是实现我国经济社会结构性改革的重点和难点。资源环境作为森工城市发展的引擎和载体,决定了城市产业、生态、社会和空间等要素的配置特征和演进方向,合理开发、利用和保护资源环境是森工城市转型成功的关键。在资源型城市中,森工城市的转型步伐仍然相对滞后,尤其是集中分布在东北边缘区位的森工城市群体,普遍存在着转型方向趋同、发展格局失衡、生态修复受阻、产业结构松散和城市引力缺失
骨质疏松症是一种全身性骨骼疾病,其特征是骨量降低和骨组织微结构的退化,继而引发骨骼脆性增加和骨折风险增大。骨质疏松性骨折将消耗巨大的医疗和财政资源。机体通过不断进行骨重塑来维持骨稳态,该过程中破骨细胞分解旧骨质,成骨细胞负责骨质重建。骨细胞是骨组织中数量最多的细胞,可以分泌表达多个重要的骨源性因子,如RANKL、OPG、Sclerostin等调节破骨细胞和成骨细胞的形成和功能。但是目前为止,调控骨
随着半导体技术和计算机体系结构设计的进步,越来越多的核心被集成到一个芯片内。当前多核处理器的核心数成为了衡量处理器计算性能的重要指标。但是面对不断增加的核心数量,核心之间的互连方案成为了影响芯片整体能效的主要因素之一。相比总线结构,片上网络具有更高的吞吐量,更低的传输延迟和更好的可扩展性,从而成为了大规模并行多核系统的主流片上互连方案。在大数据时代,大规模并行多核系统的高能效设计需求以及应用的容错
旅游业是一个易受灾害和危机影响的产业,如经济衰退、自然灾害、流行病和国际冲突等。在灾难的背景下,旅游目的地不仅面临重建基础设施和社区的艰巨任务,还面临着重塑旅游形象的严峻挑战。社交媒体是面对危机时一个重要的沟通渠道,如Facebook就是世界领先的社交网络。目前,Facebook是世界上最成功的社交网站,它既作为用户的社交娱乐来源,又被用作企业的营销平台。伴随着社交媒体革命,Facebook中新出
在枪支机件的生产加工过程中,由于机床振动等随机因素的影响,加工工具会在枪支机件表面留下一些独有的特征。枪械使用过程中的腐蚀磨损等因素会使这些特征进一步特性化。这些表面特征在枪击过程中会传递到子弹弹头及弹壳表面,可以为案件侦破提供重要线索以及为之后的法庭判决提供证据。在实际比对中,弹痕特征十分复杂,目前的弹痕识别系统的主要用途是作为弹痕专家进行识别的辅助工具。由于人工识别的主观性,其识别结果的可信度
过渡金属催化的烯炔环化反应是合成环状化合物最有效的方法之一,其中环戊烯金属化合物被广泛接受为此类反应的重要中间体。尽管基于不同的底物组合,化学家们已经发展了多种类型的烯炔环化反应,但尚未实现过高效的非对映多样性环化过程。同时,多取代六元杂环骨架广泛存在于许多具有生理活性的天然产物或人工分子中,实现此类骨架的非对映多样性合成,具有重要的应用价值。本论文针对上述不足,结合当前立体多样性合成的发展趋势,
SOI LDMOS功率器件的栅极、源极和漏极在同一表面,易于集成,同时具有较快的开关速度和较小的寄生效应等优点,作为电源开关,是高压电源集成电路的核心器件,在空间电源集成电路中有广阔的应用前景。本文基于典型SOI高压LDMOS功率器件,结合理论分析和TCAD物理仿真,研究了总剂量辐射、单粒子辐射对其静态和瞬态电特性的影响,揭示了总剂量辐射累积剂量致栅控电流特性和阻断特性变化规律,以及单粒子辐射致器
在国家创新体系中高校科研创新地位举足轻重,随着互联网的飞速发展,高校科研创新过程变得更具复杂性和时效性,科研人员对于科研所需的知识需求也日益强烈,而从图书馆获取所需的科研知识资源和专业的科研服务支持,是实现科研创新的有效手段与重要途径之一。当前,智能服务的需求和情境正成形成,并将成为未来发展的新方向。面向高校科研创新,目前国内外一些著名的高校图书馆正开展智能服务的理论探索与实践应用;然而,在图书馆
在混凝土中使用粉煤灰代替部分水泥是一个有效利用粉煤灰的方式。在混凝土中掺入比水泥更多的粉煤灰,即粉煤灰占总胶凝材料的质量分数大于50%,可得到大掺量粉煤灰混凝土。这种混凝土存在诸多优点,例如更具发展潜力的后期强度、更低的干缩、更经济的制造成本,在实际工程中也得到了一定程度上的应用,包括大体积混凝土、自密实混凝土、碾压混凝土和纤维增强混凝土等。但是目前大掺量粉煤灰混凝土应用范围不广,这主要与其早期强