格子玻尔兹曼方法在天河系统上的并行优化与可扩展性分析

来源 :2014全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:snoopy_wx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对描述多相流流体运动的格子玻尔兹曼方法(LBM)进行了并行优化.根据LBM高度并行性的特点,采用消息传递并行机制实现了LBM并行程序,并通过多线程并行优化手段,实现了该程序的MPI+OpenMP混合并行.在LBM并行程序的基础上,针对程序的强可扩展性对总问题规模为400*400*400在多组进程上进行了测试,由两组测试结果可以看出程序的性能热点部分所得加速比接近理想加速比,体现了LBM程序良好的强可扩展性;之后本文又对单结点问题规模为400*400*400进行了大规模测试,程序的性能热点部分的时间开销有减小趋势,体现了LBM程序优良的弱可扩展性.本文的测试结果揭示了LBM方法在高性能计算方面所具有的巨大优势.
其他文献
针对肿瘤细胞测序数据的基因拷贝数变异检测是研究癌症相关基因变异的重要手段.高通量测序技术的迅速发展产生的海量测序数据,一方面推动了基因拷贝数变异检测算法的发展,另一方面带来了数据处理与存储等计算问题的挑战.本文提出了一种新的面向多核平台的基因拷贝数变异检测的并行算法,设计了一种基于序列数目等量的窗口划分与合并策略,并通过将计算过程划分为多个计算BIC值的计算任务实现了程序的并行化,在此基础上,通过
针对GPU集群系统,研究了AINV和SSOR-AI两类近似逆预条件的并行算法.采用多级k-路图划分方法,通过子图的内点和边界点识别方法以及稀疏矩阵的置换技术,提出了将稀疏矩阵转换为分块箭形矩阵的并行方法.基于所形成的分块箭形矩阵,结合块内稀疏矩阵近似逆串行、块间并行的策略给出了近似逆预条件的并行方法,实现了AINV和SSOR-AI并行算法,解决了AINV预条件难以并行的问题.基于CPU与GPU协同
Alltoall通信是对网络性能要求最高、扩展性最差的MPI集合操作之一,同时又作为核心通信模式广泛应用于诸多计算领域.而随着高性能计算机系统规模的急剧增大,能够降低成本并提高利用率的过载网络(oversubscribed network)设计成为大规模计算系统网络设计的趋势.过载网络给Alltoall通信带来更严峻的挑战,网络的过载特性不仅会导致链路的竞争,还易引发消息顺序错乱从而严重降低通信性
直线加速器中大规模带电粒子的追踪对高电流直线加速器的设计和优化至关重要.本文介绍了3维异构并行束流动力学模拟软件LOCUS3DG的开发现状,这是基于以前开发的并行束流模拟软件LOCUS3D.粒子按照一定比例同时分配到CPU和GPU中,并开发了一种有效的异构并行3维泊松方程求解器.在美国阿汞国家实验室的BGP超级计算机,中国科学院超算中心和国家超算天津中心的集群上对软件进行了详细的测试,并得到了测试
气象数值模式是天气预报和气候预测的基本工具和方法,随着技术的发展,模式分辨率有了大幅的提高.分辨率的提升带来了计算量呈指数倍的增大,然而气候气象预报的时效性对并行程序的设计与计算平台性能都提出了更高的要求.本文以气候模式T106为研究案例,以Intel Xeon PhiTM为实验平台,探索混合异构编程与优化的可行性,实现了CPU端MPI+MIC端OpenMP的混合异构编程,充分继承了原始代码的MP
GALBC是一款应用在CPU-GPU异构平台上基于格子Boltzmann模型开发的并行计算软件,可用于多相流、渗流分析等计算流体动力学(CFD)领域.格子Boltzmann方法(LBM)是在介观层面上研究流体特性的一种CFD方法,因其物理图像清楚、模型简单和数据局域,非常适合利用图形处理器(GPU)进行大规模并行计算.在自主软件GALBC中,基于统一计算设备架构(CUDA)编程模型重新设计了传统L
近几年来的科技与应用的高速发展对高性能计算提出了强烈的需求和严峻的挑战,异构众核系统因其良好的性价比和高能效表现被越来越多广泛应用于高性能计算领域.Nvidia GPU和Intel Xeon Phi是常用的两款具备通用计算能力的众核处理器,不过传统的异构众核平台大多由CPU+GPU或者CPU+Xeon Phi的单一模式构成.蒙特卡罗方法是众多期权定价算法的核心,在本文中面向由CPU、Nvidia
高性能计算机的并行处理技术发展促进了并行可视化,互联网带宽的增长催生了远程可视化,使得基于高性能计算机可视化服务器的多用户远程可视化研究受到重视,应用需求日益迫切.本文根据建立基于高性能计算机的大规模高性能计算数据远程可视化系统任务要求,研究了高性能可视化服务器采用传输图像途径与客户端进行信息交互的关键技术,设计实现了基于WebSocket技术定义初始化、交互浏览、交互修改等多种协议,可有效支持远
指令缓存占了处理器较大比例的能耗,增加小容量L0指令缓存可降低取指能耗.本文提出了一种L0指令缓存技术:基于推断技术的0级指令缓存.使用命中推断和缺失推断技术减少了L0缓存tag比较.根据程序跳转次数和方式,给出了四种基于推断的L0指令缓存结构.以上结构较标准L0指令Cache设计相比不仅能减少比较时间,同时也能节省tag比较的能耗.实验结果表明,对于所选取的SPEC2006测试程序,较标准L1指
传统的协同过滤算法存在准确率较低以及计算延时性问题,本文提出一种基于标签与协同过滤的并行推荐算法:通过计算标签的TFIDF值,降低流行标签的权重,根据用户的历史行为预测用户对其他资源的偏好值,最后依据预测偏好值排序产生Top-N推荐结果.论文不仅在理论上对算法的计算效率与复杂性进行了分析,而且通过MapReduce实现了该算法,并在实验中与Mahout的协同过滤算法进行了对比分析,实验结果表明在该