多核机群平台上MPI集合通信的优化

来源 :2010年全国高性能计算学术年会(HPC china2010) | 被引量 : 0次 | 上传用户：feng1644

【摘要】

：

【作者】

：

邹铭涂碧波

【机构】

：

中国科学院计算技术研究所北京 100190;中国科学院研究生院北京 100049;北京市计算中心北京 10012

【出处】

：

2010年全国高性能计算学术年会(HPC china2010)

【发表日期】

：

2010年12期

【关键词】

：

多核机群分级缓存 MPI 集合通信层次化虚拟拓扑 data tiling

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　随着多核处理器的出现，多核机群的存储层次变得更加复杂，于是多核机群具有与传统的SMP 平台显著不同的特征，因此多核机群上的MPI 集合通信应该具有多核意识。带有层次化虚拟拓扑的集合通信优化技术关注多核机群不同通信层次间的通信性能差异（通信层次可以简单的分为节点内通信和节点间通信）。另外，为节点内的集合通信选择合适的消息片大小可以有效地利用多核处理器的分级缓存结构的特性。以上两种技术构成了多核机群MPI 集合通信的优化方法，并实现在MPICH2的集合通信算法中。作为实例，详细研究了具有多核意识的broadcast 算法并给出性能评价。性能评价的结果表明多核集群平台上的MPI 集合通信优化方法较MPICH2 中的MPI_Bcast 有显著的提升。

其他文献

一种面向虚拟化软件流式加载的预取机制

近年来，软件的网络化、服务化使用成为一种新的趋势。在虚拟化软件按需流式加载的执行过程中，程序会因请求缺失的数据而被阻塞直至数据被下载过来，从而影响用户的体验。针对这一问题提出了一种基于N-Gram 预测模型和数据挖掘技术的面向软件流式加载的预取机制，通过收集用户使用软件所产生的软件文件访问日志，进行数据挖掘分析，来动态更新、完善预取规则，然后根据最合理的预取规则进行预取。实验结果表明，对于各

会议

软件流式加载N-Gram预取机制数据挖掘软件即服务

异构多核集群编程模式初探

本文首先介绍多核处理器的发展,多核处理器分为同构多核处理器和异构多核处理器,并简要介绍过去几种常见的异构多核处理器,如TI的OMAP多媒体处理器、Cell 处理器、特别是由NVIDIA 公司推出的支持CUDA 架构的GPU,使其作为CPU的协处理器,用于并行计算,解放了CPU 繁重的计算任务。接下来介绍集群的发展,集群也分为同构与异构两种,并重点介绍异构多核集群的发展,如美国橡树岭国家实验室

会议

异构多核集群CUDA图形处理单元Cell并行编程模式

可变长2DFFT处理器高层次设计实现方法

随着以数据为中心的嵌入式移动计算和多媒体应用的兴起,以应用为中心功能可重构的系统设计方法将成为未来处理器研究的重要方向.FFT 作为这类应用中最为重要的计算类型之一,为专用系统结构设计提出了新要求.本文提出了一种适合加速FFT 运算的流处理器架构.通过分离计算流和数据流,在简化计算部件设计和实现开销的同时也增加了系统模块的可重用性.面对加速复杂应用这一问题,基于硬件描述语言(HDL)的传统实

会议

FFT处理器流式体系结构素因子算法高层次设计综合代码生成

Gac:基于GPU的高性能AC算法

字符串匹配是计算科学中研究最广泛的问题之一,已成为信息检索和生物计算等领域的核心操作.然而受限于CPU的计算能力和存储器访问带宽,传统的串行字符串匹配算法难以进一步提升性能.GPU 在计算能力和存储器访问带宽上有很大提升,已经在很多应用上取得了卓越成效.gAC 作为一种基于GPU的并行AC 算法,针对GPU的SIMT （Single-Instruction Multiple-Thread）以

会议

GPUCUDA多字符串匹配并行计算AC 算法

面向云模型的网格数据管理系统的设计

在网格社区环境下，用户数据可以分布在全网格范围内的各个节点，本文针对目前缺乏社区层的全局数据管理系统的问题，从云存储的角度出发，设计并实现了一种适应于CNGrid的支持全局统一视图和跨域操作的网格数据管理系统。其中通过文件虚拟路径的设计，解决了对社区文件的定位和跨域操作的问题。该系统屏蔽了底层协议和操作的细节，极大地提高了用户对分布在全网格中数据的管理效率。

会议

云存储文件空间虚拟文件数据管理

三值光学计算机MSD加法器计算原理模拟实现

MSD加法器是三值光学计算机的一个重要运算部件。利用MSD ( M odified Signed-Digit )加法计算中具有无进位过程的特点，理论上构造三值光学计算机MSD 加法器，可使光学计算机的“三值”和“数据位数众多”两大优势在数值计算中充分发挥作用。在已建立的三值光学计算机MSD 加法器的理论和结构的基础上，鉴于实现MSD 加法的三值光学计算机千位实验系统还在建设中，本文用C++程

会议

三值光学计算机MSD 数字加法器数据剪辑

一种基于四叉树的稀疏矩阵存储方式和高效乘算法

大规模稀疏矩阵向量乘和稀疏矩阵间乘法在科学研究和实际工程中广为应用，但传统的稀疏矩阵存储格式或者会在运算中带来间接引用，以致降低Cache 命中率，严重影响程序的执行效率，或者需要已知矩阵中非零元的分布，不易广泛应用。本文从提高Cache 命中率和Cache 中数据的局部性出发，提出一种带索引数组的四叉树存储结构。采用这种数据结构，稀疏矩阵的乘法就可以被分解为一个个与Cache 容量相适应的

会议

稀疏矩阵四叉树Cache 命中率矩阵乘算法

一类基于迭代空间条块的并行有限差分Stencil算法

高效的并行有限差分Stencil 算法对于求解大型线性方程组是十分重要的。针对并行有限差分Stencil 算法中数据局部性差、同步和通信开销大的问题。首先改进传统有限差分Stencil 算法，提出了多层对称遍历有限差分 Stencil 算法。然后给出了以迭代空间条块序作为执行序的串行算法，通过沿时间轴对迭代空间进行时滞划分，在不改变迭代算法性质的同时，对迭代空间条块内部多次迭代计算，提高算法的数

会议

有限差分Stencil迭代算法交错网格条块多面体模型数据局部性通信优化

集群环境中基于ParaView的高性能海量数据可视化软件环境设计与实现

科学计算可视化历来是工程科学领域分析数据的有效手段。随着高性能计算的快速发展，计算产生的数据量成倍增长，以往的可视化方法无法与高速发展的高性能计算相适应：传输数据的时间开销巨大，处理大规模数据的计算性能不足。本文结合上海超级计算中心的“魔方”集群，以及开源的可视化软件 ParaView 构建了一套远程高性能可视化环境。科学计算用户通过广域网，采用与本机使用可视化软件类似的方式来对“魔方”上计算所得

会议

集群ParaView远程可视化海量数据多用户可视化

油藏数值模拟中非规则计算并行化及自动调优

在油藏数值模拟领域，非规则迭代计算问题是影响大规模计算效率的重要原因之一。由于在编译时无法确定数据存取模式，其分布式并行化难以实现。本文提出面向分布式集群的非规则迭代Inspector/Executor（DIII/ E）模型，通过运行时并行交错条块策略，提高非规则迭代算法的并行执行性能。此外，通过性能自动调优器，找到效率最优情况下的参数匹配，实现算法在相应体系结构下的运行效率最优。在集群环境下的

会议

非规则迭代分布式并行化自动调优

多核机群平台上MPI集合通信的优化

与本文相关的学术论文