基于CPU-GPU异构平台的欧拉大气方程并行求解

来源 :2014全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:gqkhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大气模式是描述大气中的各种物理量随时间及空间变化的科学计算程序.用大气模式对未来气候进行预估,是科学理解全球气候变化中最为重要的一环,长时间以来一直受到科学界的广泛关注.随着近年来气候对人类生产生活的影响日益加深,如何利用高性能计算领域的相关技术找到一种高效求解复杂大气模式方程的方法,成为亟待解决的关键问题.大气模式动力框架是影响大气模式计算可扩展性和计算效率的核心模块,欧拉方程是目前最常见的大气模式动力框架数学方程.本文中,基于CPU-GPU异构平台对欧拉方程求解器进行了实现和优化加速.与之前针对二维浅水波方程的工作相比,欧拉大气方程的求解算法更加复杂(浮点运算量增加了超过两倍).而且三维数据模型的引入,使得程序无论是在数据规模上,还是在通信密集度上都带来了更大的挑战.针对这些挑战:首先,本文设计了一种异构任务划分机制,使得在同一结点内的CPU处理器以及GPU加速器能同时进行工作,在显著提升计算效率的同时实现了高效的计算通信重叠.其次,运用一系列的并行优化方法分别针对GPU和CPU体系结构进行了全面系统的优化,显著提升了程序的整体性能.相较于12核CPU优化版本,基于CPU-GPU异构平台的最优版本在不同数据规模下取得了超过4.7倍的加速效果.与此同时,异构版本还具有良好的可扩展性,可以进一步用于高分辨率大气模拟.
其他文献
本文提出了一种基于信息内容保护的信息安全模型.该模型利用将汉字笔画抽象为有向图的方法,设计了汉字笔画图抽象的具体方案,实现了对汉字字形结构的动态描述:建立了动态汉字字形描述库,设计了汉字字形的生成算法,实现了汉字字形的Web存储和在客户端的特征字形的输出.为汉字信息的云端存储和云端数据安全性保护提供了一种解决方案.
BH树算法的并行实现和应用是N体问题的研究热点.本研究重点以MPI和OpenMP混合编程模型实现了BH树算法的并行,并采用正交递归二分法(ORB)实现进程间的负载均衡,并行后的代码在双路CPU上获得了20.6倍的性能提升.同时,将并行后的代码移植到CPU多核和MIC的异构平台上,利用CPU和MIC协同计算、cache优化等技术进行优化,优化后的异构平台上单节点性能相当于双路CPU的1.4倍,且具有
复杂网络的可视化是复杂网络研究中的重要手段.近年来也有很多学者致力于对布局算法的改进[1],但是大多数改进算法都是只针对布局效果或计算效率的其中一个方面.随着Web2.0时代和大数据时代的来临,作为研究对象的复杂网络的规模越来越大,这对复杂网络可视化布局算法的布局效果和运算速度都提出了新的挑战,因此,本文主要研究大尺度网络如何在有限的显示面积中快速合理的显示的问题,指出较大规模的网络数据,即使压缩
本文提出了一种支持海量存储系统的高性能通信协议.链路负载均衡机制,针对链路负载情况和权重进行评价并选择:链路容错机制,结合退避算法和P坚持算法实现基于超时机制的链路监测和恹复机制,与简单超时机制相比,至少提升10%性能:消息重传确认机制,采用滑动窗口机制缓存请求信息标识符和应答消息,仅处理对系统产生影响的写操作,避免读操作产生的大量数据对内存的消耗,相比较NFS的重复请求高速缓存而言,减少缓存信息
随着数量巨大的云服务的涌现,云服务选择成为云计算领域的重要研究内容.云服务本质上是Web服务,服务选择不仅与QoS相关,也与Web服务数据的可信性相关,即与Web服务输出数据的可信性相关.本文在当前Web服务选择研究的基础上,从数据起源角度衡量Web服务输出数据的可信度,并将Web服务输出数据的可信度与QoS数据结合,提出一种基于skyline计算的Web服务选择算法,对Web服务进行筛选和评判,
作为图论经典问题之一,全源对最短路径(All PairShortest Path)问题计算图中所有顶点对之间的最短距离,在生物信息学、地理信息系统、集成电路计算机辅助设计和交通规划等领域都有重要应用.Toueg算法是基于Floyd-Warshall算法的分布式算法.本文在Pregel上实现了Toueg算法,并且针对图论问题通信量大、计算量少的特点,本文提出一种改进的Toueg算法,Communic
中国科学院地球系统模式CAS-ESM成功实现了IAP AGCM4.0与WRF的单向嵌套,但其计算时间急剧增加,并行效率有待提高.因此,本文开展了基于二维剖分对大气环流模式IAP AGCM4.0进行并行优化的工作,研究了IAP AGCM4.0通过耦合器CPL7与WRF单向嵌套的并行机制,并提出了解决METGRID并行负载不均衡问题的优化算法数值试验表明:并行优化后的IAP AGCM4.0具有较高的并
可重构多核处理器根据程序的行为特征实时地调整核的数目和大小,从而带来巨大的性能和能效优化空间.在重构计算资源以满足不同任务需求的同时,确保和优先级一致的性能(公平性)给现有的操作系统调度带来了机遇和挑战.本文在原有的基于时间片的DP调度算法和没有时间片概念的CFS调度算法基础上提出了两种性能感知的公平调度算法:PDP和PCFS调度算法.这两种调度算法既能够保证程序执行的公平性,又能够充分发挥可重构
在实现循环到流水硬件结构自动映射过程中,迭代间启动间距的自动分析技术是可重构编译器研究的难点.在现有细粒度可重构编译器中,主要采用人工输入制导语句方法控制循环并行流水硬件结构自动映射所需启动间距信息的生成,该方法只能采用固定启动间距方式对流水硬件结构进行控制,不能充分发挥并行流水硬件结构的性能,同时人工确定启动间距的方法降低了可重构计算应用的部署效率.针对细粒度可重构编译器的现状,本文提出了一种面
基于GPU加速设备的高性能计算机已经成为目前高性能计算领域一个重要发展趋势.然而,在当前的GPU设备上开发高效的并行程序仍然是一件非常复杂的事情.针对这一问题,本文首先总结了影响GPU程序性能的几个关键性能指标.然后,采用NVIDIA公司提供的CUPTI底层接口,设计并实现了一套GPU程序性能分析工具集,该工具集可以有效地分析GPU程序的性能行为.最后,本文采用该工具集对著名的GPU评测程序集Ro