基于数据流架构的3D Stencil优化

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:szywit01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Stencil计算是高性能计算领域的七个主要计算核心之一,是大量科学计算和工程计算的核心,被广泛应用于大气模拟,流体力学等多个领域。Stencil计算虽然具有天然的数据并行性,但其计算访存比较低,主存带宽受限严重,在传统冯诺依曼架构的CPU上,以及适合开展数据处理的GPU上所获得的计算效率仍非常低。计算效率低则意味着计算部件和功耗的浪费,在高性能计算领域,对性能功耗比要求越来越高,低下的计算效率已无法满足应用需求所带来的挑战。  数据流架构因为结构简单,拥有天然的异步并行性等特征为体系结构领域所重视。在面向高性能计算领域时,数据流加速器作为一类专用处理器,更是表现出了较好的性能和适用性。因此在数据流架构上对Stencil程序进行优化是提高Stencil计算效率的一种令人期待的解决方案。  本文基于中科院计算所自主研制的数据流结构处理器SPU,研究3D Stencil在数据流架构上的优化方案,本文的主要研究内容和贡献如下:  1.通过分析3D Stencil计算的算法特征和SPU的结构特征,本文提出3D Stencil在数据流架构上的软件优化方案,其中主要包含空间复用和时间复用两个部分,通过实验评估,采用软件优化后,3D Stencil的计算效率可从原来的1.01%,提升到18.7%。  2.为了进一步提高3D Stencil的数据复用率,本文提出面向3D Stencil的硬件优化方案,引入了软循环执行模式,设计了面向3D Stencil的特定循环控制指令,并在SPU上对这些指令进行支持与实现。通过实验评估,采用硬件优化后,3DStencil的计算效率可以进一步提升至25.5%,相对于软件优化提高了36%的计算效率。  3.在硬件优化方案的基础上,基于SPU的结构特征和3D Stencil的应用特性,本文提出了基于指令簇的指令映射算法(CBIM)。该指令映射算法可以解决常见指令映射算法负载不均衡的问题,并能够缓解网络竞争压力。通过实验评估,映射优化后3D Stencil的计算效率可以达到44.96%,相对于软件优化提升了140%,相对于硬件优化提升了76.3%。
其他文献
该文的第一部分,阐述了国内外相关软件发展的现状,以及研究该课题的特点和研究意义;第二部分阐述了企业级信息交互平台的体系结构,通过与传统网络模型的比较,提出了客户/分布
移动事务处理技术的研究起因于移动用户在移动过程中对数据库系统进行存取访问的迫切需求,困难来自于移动计算环境的固有特性.在移动数据库原型系统MDM3的基础上,设计开发其
XML是W3C组织标准化的数据描述语言,具有可扩展性、内容和显示的分离性以及机器可读性等特性,非常适合用来描述UseCase这类具有丰富语义和逻辑结构的数据.基于XML的上述特点,
大规模城市场景在游戏、动画电影以及虚拟现实系统中有着重要的应用。这些场景的建模一般都需要使用大量的建筑模型。使用手工建模不仅需要耗费大量的人力物力,同时建筑模型中
为了提高系统性能,减少用户等待延迟,许多方法应运而生.传统的解决方法有升级服务器硬件设施,如:内存与cpu,在客户端开辟一段缓存等等.但这些却带来了新的问题,如:增加了费用
学位
多维聚集查询的处理过程可概括为三个步骤,依次为:多维区间生成、数据立方查询处理和星型查询处理.所以,对其的优化也主要针对这三个步骤分别进行.互不相交等价变换是多维区
传统数据库语言不支持主动实时应用,ARTs-DBMS对标准的SQL进行了相应的扩充.不仅需要显式地描述数据和事务的定时性和时间约束,准确地刻画事件、条件、活动及三者之间的关联
该文在分析了现有网络存储技术的基础上,设计了一种有NAS和SAN技术优点又充分体现IP网络存储技术优势的统一存储网(USSSN——UnifiedStorageNetwork)的新技术.其中如何实现SA
随着智能终端如智能手机、可穿戴设备的迅速普及,移动互联网高速发展。移动互联网的迅猛发展给多源情境感知技术带来新的活力。在情境感知技术的支持下,智能终端将更加智能化,各