基于InfiniBand网络的消息可扩展技术研究

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户：tornadohearwind

【摘要】

：

InfiniBand是目前HPC系统互连的主流网络之一，其提供的可靠连接传输服务因为支持RDMA、原子操作等功能而被广泛应用于MPI等并行应用编程模型。但是支撑可靠连接所需的消息队列及缓冲区开销往往会随着并行规模的扩大急剧增加，从而制约了应用规模的扩大。为了解决这种内存开销带来的消息可扩展性问题，本文先从InfiniBand传输优化方面介绍了共享接收队列和扩展可靠连接技术，然后基于并行通信模型提出

【作者】

：

Peng Long-Gen 彭龙根 You Hong-Tao 尤洪涛 Yin Wan-Wang 尹万旺

【机构】

：

National Research Center of Parallel Computer Engineering&Technology BeiJing 100080

【出处】

：

2012全国高性能计算学术年会

【发表日期】

：

2012年11期

【关键词】

：

计算机网络信息共享可扩展技术共享接收队列处理器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

MPI程序中使用三值光学计算机的技术

本文提出了在MPI并行程序中使用三值光学计算机(TOC)的技术.在这个技术中,TOC节点作为服务端,运行等待连接的进程：CPU上运行的MPI进程作为客户端,使用有SHDX前缀的一类扩充指令来请求同TOC的连接.TOC和CPU连接之后,MPI进程将运算请求和数据在一次通信中发送给TOC节点,TOC发挥自身特长来处理数据.并将计算结果回送MPI进程.这个过程实现了TOC与CPU的协同工作.实验表明了该

会议

并行程序三值光学计算机计算节点服务功能

基于3D集成技术的微处理器软错误屏蔽效应研究

集成电路进入到纳米时代，微处理器的软错误问题越来越严重。地面应用的商用微处理器难以像工作在恶劣环境中的系统那样采取激进的保护措施，需要在性能，功耗和可靠性之间取得平衡。新出现的3D集成电路具有芯片间屏蔽效应，能够降低内层电路的软错误率。本文分析了微处理器软错误率，基于3D集成技术，将微处理器的不同功能部件放置在受软错误影响较小的内层电路，以此来降低芯片整体的软错误率；通过量化分析可知，对于四种基于

会议

微处理器软错误屏蔽效应3D集成技术

超级计算中心核心应用的浅析

超级计算在“高、精、尖”的前沿科学、工程研究之中广泛应用。但由于我国超算中心大多采用“地方政府投资、以市场为导向开展应用”的建设思路，与国际知名超算中心的运作模式相比，我国超算中心的应用领域范围和应用模式具有很大差异，核心应用导向往往不是高端的计算密集型应用，而是常常追求服务密集型应用。本文初步探讨了国内超算中心核心应用所面临的挑战，提出了超算中心核心应用服务地方建设的几点建议。

会议

超级计算机中心核心应用运作模式

基于大型场景的高精度成像并行光线追踪算法

光线跟踪(RayTracing)，也称为光迹追踪，是计算机图形学的核心算法之一，用于从三维场景生成逼真的二维图像.追踪光线是计算密集型操作，同时二维图像的每个像素需要投射一条甚至多条光线与场景求交，导致光线追踪计算量大效率低.对于大型场景的高精度成像问题情况变得更加糟糕.本文针对大型场景的高精度光线追踪成像耗时大效率低的问题，提出了一种分布式并行渲染的光线追踪算法.在32个CPU核上最高取得了30

会议

光线追踪算法高精度成像并行计算分布式计算

基于HBase的并行BSF方法

NoSQL数据库作为下一代巨型数据的存储模式，在科学计算和商业计算领域均发挥着重要作用，受到当前学术界和企业界的广泛关注，本文提出一种新的基于NoSQL数据库HBase的并行求取最短路径树的方法，首先利用Watts-Strogatz模型完成对巨型网络的数学建模，这种建模方式使得网络模型具有一定的聚类效果：其次利用HBase最近发布的coprocessor对并行BSF方法的简化和改进，简化并行BFS

会议

NoSQL数据库并行广度算法最短路径运算效率建模分析

云计算中基于Session和内容等级的数据库请求分类算法

云计算是当今世界IT行业的研究热点，在云计算实例中存在各种各样的用户对于数据库的请求，并且这些请求是海量的，如果不对这些数据库请求进行合理的分类，必然会对系统的性能造成很大的影响，如何对这些请求进行分类，以达到Web QoS的标准，是云计算研究的一大难点和关键点。原来基于先来先服务的请求模式，不仅不能满足客户优先级的要求，不能达到利益的最大化，而且不能使得服务资源得到充分利用。因此，本研究提出了基

会议

云计算数据库请求分类算法内容等级

一种有效的检测Ad-hoc同步的方法

Ad-hoc同步在多线程程序中非常常见。和phtread 库中的正规同步语句不同( 比如pthread_cond_wait),Ad-hoc 同步会隐含地引入happen-before 关系。对于很多错误检测工具来说,这种隐含的happen-before 关系难以被检测,正是这个问题影响着这些错误检测软件的正确性。在本文中提出一种有效地检测ad-hoc 同步的方法,此方法包含编译时分析和运行时分析两

会议

并行程序ad-hoc同步错误检测程序推理

三维叠前随机噪声衰减预测算子计算的GPU并行算法初探

应用GPU通用高性能编程技术设计了一种加速三维叠前随机噪声衰减(以下简称三维叠前RNA)预测算子计算的并行算法。三维叠前RNA是地震资料数据处理的常用技术，能有效提高三维叠前数据的信噪比，去噪效果明显，然而其巨大的计算量，成为工业生产的瓶颈。本文首先分析并定位了三维叠前RNA计算的热点为预测算子计算，然后描述了串行预测算子计算算法及该算法的GPU并行化可行性分析，最后利用CUDA技术设计了基于GP

会议

地震资料数据处理图形处理器并行算法三维叠前随机噪声衰减预测算子计算

BLAS子程序xROT在蓝色基因/Q超级计算机上的实现与优化

BLAS 是科学计算中最基础的数学库之一，广泛应用在HPC 领域.IBM 公司提供的针对IBM 硬件平台进行优化的工程科学子程序库(ESSL)，包括了BLAS 数学库.本文具体介绍ESSL 中BLAS 库子程序xROT 在IBM 蓝色基因/Q 平台上的实现和优化.本文介绍的优化技术对其它平台上的数学库优化也会有借鉴作用.

会议

下一代计算机数学库性能分析

FCA算法加速IBM Platform MPI的性能测试和分析

MPI是高性能计算领域内的重要标准之一,MPI应用程序的性能通常取决于其MPI集合通信的性能,FCA(Fabric Collective Accelerator)是加速集合通信的一种新方法。本文通过高性能计算环境测试主要分析了FCA共享内存和非共享内存机制对IBM Platform MPI加速效果,FCA的原理以及IBM Platform MPI和FCA的集成,同时也为在高性能计算领域应用FCA提

会议

并行程序集合通信性能测试高性能计算

基于InfiniBand网络的消息可扩展技术研究

与本文相关的学术论文