多核体系结构上迭代方法的通信与计算比分析

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:vsbutcher00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  迭代方法是科学计算中求解大规模稀疏线性代数方程组最常用的方法。迭代方法的并行可扩展性能取决于迭代过程中通信与计算开销之比。稀疏矩阵与向量的乘积(SpMV)、向量与向量的内积(Dot)是迭代方法的两个基本运算,分别需要局部点对点通信和全局规约通信,是影响迭代方法并行可扩展性能的主要瓶颈。多核体系结构需要并行迭代方法适应更细粒度的并行计算,通信与计算比对并行性能的影响更为突出。针对多核体系结构特征,本文分析并行迭代方法的通信与计算比。具体地,引入渐近规模,即满足加速条件的计算规模下界,来反映并行迭代方法适应细粒度计算的能力,并由此刻画通信与计算比。基于此,在一台包含128 个双路四核计算节点的并行机上(共1024 个CPU 核),分别基于纯进程并行(MPI)和进程/线程混合并行(MPI/OpenMP),分析了几类常用迭代方法的通信与计算比。数值结果表明,基于MPI 的纯进程并行性能受限于内积计算的渐近规模,难以适应多核体系结构上的大规模计算。基于MPI/OpenMP 的进程/线程混合并行可缓解进程间的MPI 通信开销,降低渐近规模,改善并行可扩展性能。基于这些结果,从迭代方法的算法设计和并行实现等方面讨论了面向更大规模的多核系统,降低通信与计算比的途径和方法。
其他文献
随着获取设备的发展,大尺度、高分辨率数字图像已逐步步入现代人们的生活,大尺度图像的梯度域编辑显得更为重要。求解大规模未知数的泊松方程是大尺度图像梯度域编辑的关键,传统多重网格算法的迭代、约束和插值操作单独进行,内存和外存间通讯量大,算法效率低,为此本文提出了一种面向大尺度图像梯度域编辑的并行多重网格求解泊松方程的算法,利用多重网格的迭代、约束和插值过程的内存数据访问局部性和更新相关性,构造滑动工作
高性能计算机系统规模越来越大,系统可靠性问题越来越严重。检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题。针对当前计算机系统计算和存储资源丰富,而并行文件系统写带宽提高相对滞后的特点,本文提出基于内存缓存的异步检查点容错技术,传统的检查点技术被划分为两步:检查点文件首先被缓存在计算结点的局部内存,然后使用一个独立的帮助任务将数据
任务调度问题是一个NP完全问题,基于启发式的方法通常被用来求解次优解,其性能在很大程度上依赖启发的成效,在复杂问题时可能会产生不理想的结果.鉴此,根据DNA 双螺旋结构模型,提出了一种异构计算系统中DAG 任务调度的双螺旋结构遗传算法(DHSGA),DHSGA 算法将GA 算法和启发式方法有机的结合,首先针对DAG 任务图的数据依赖关系,采用启发式方法,控制GA算法的交叉与变异操作合理改变一个染色
由于处理能力强且成本功耗相对较低,利用GPU运行仿真应用可获得成本和性能的双赢。在基于GPU的并行离散事件仿真中,动态不规则的存储空间需求以及深度并发的存储空间分配请求等因素导致仿真事件的存储管理十分困难。针对这一问题,提出了一种基于GPU的并行离散事件仿真存储管理算法。首先分析仿真内核函数的仿真事件存储管理需求,提出存储管理算法框架并建立需求模型,进而推导出该模型下最优的存储管理算法,最后对算法
并行流水线Sn 扫描算法是在非结构网格上求解粒子输运方程的一种重要方法。本文在分析JASMIN框架下的并行流水线Sn 扫描算法的基础上,在多核集群平台上,算法并行性,通信效率,均衡负载等几方面,提出了一种优化算法。实验结果显示,与原JASMIN 的并行流水线Sn 扫描算法相比,优化算法在单个处理器上性能平均提高30%,在可扩展性上,当处理器的总核数从12 增加到384 时,加速比始终呈线性,也优于
当前在高性能计算机平台上,大规模、大尺度、长时程数值计算由于浮点计算的舍入误差累积效应,常导致不可信的数值结果。于此同时,多项式函数广泛应用于大规模工程科学计算的各个领域,快速可靠计算多项式函数值在高性能计算中显得尤为必要。本文运用无误差变换理论,从浮点运算代码层面上,分析舍入误差累积效应及其在计算多项式函数值算法中的代数结构和统计特性,进而设计误差可控的补偿数值算法。以此为基础构建了计算单变量和
本文在JASMIN框架中设计实现了多块协调拼接网格并行支撑软件模块。该模块针对多块协调拼接网格并行计算中的通信性能瓶颈问题,设计实现了网格块间关系统一描述算法,及网格片间统一通信调度策略,有效地解决了通信性能瓶颈问题。同时该模块封装了数据分布存储、数据通信等并行计算细节,提供了规范接口,能够支撑用户简便地实现多块协调拼接网格并行计算。测试表明,该模块具有很好的并行性能,可以支撑应用程序扩展到上千核
目前的处理器依赖于在片上集成多个处理核心来获得性能提升,以此为硬件基础的并行编程模型需要通过屏蔽底层并行实现细节,充分发挥多核优势。本文选取了Berkeley并行计算前景报告中指出的两个典型应用,高级加密算法AES和矩阵相乘Strassen算法。通过研究基于OpenMP的多核编程模型在进行典型应用加速时影响性能优化的多种因素,包括划分任务的合理性、核间通信量以及共享数据访问的解决方式等。基于Ope
针对云计算环境中多个DAG科学工作流的可靠调度问题,提出一种考虑处理机链路通信竞争的、动态多DAG分层调度算法(CCRH).算法首先使用通信竞争模型描述处理机之间通信,然后分别计算主副版本任务的最早完成时间,并限定所调度的处理机单元,对多个DAG工作流任务使用动态分层方法,并计算每个DAG的不公平程度因子.算法有效解决了当多个DAG中任务的权值相差较大时,之前到达的DAG不会因为剩余任务迟迟得不到
MIPS处理器是精简指令集(RISC)处理器中的一个重要代表,通常应用于嵌入式系统中。近年来,随着MIPS处理器性能的大幅度提升,其应用渐渐的扩展到了高性能服务器领域。龙芯3号处理器是MIPS架构的典型代表。在目前的服务器研究领域中,多核技术是一项重要的技术指标,而虚拟化技术是另一项重要的技术指标。当前,虽然虚拟化技术得到了快速发展,但是龙芯3号处理器上的虚拟化技术却鲜有成果。基于龙芯3号处理器的