SpMV自适应性能优化与混合并行编程关键技术研究

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：cc023061227

【摘要】

：

随着计算机硬件的快速发展，体系结构变得越来越复杂。根据体系结构特点开发高性能数学库可以对应用开发人员屏蔽具体硬件细节。系统结构的多样性和更新速度无疑增加了数学库开

【作者】

：

孙相征

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2011年期

【关键词】

：

自适应性能优化稀疏矩阵向量乘对角线格式分块优化混合并行编程

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机硬件的快速发展，体系结构变得越来越复杂。根据体系结构特点开发高性能数学库可以对应用开发人员屏蔽具体硬件细节。系统结构的多样性和更新速度无疑增加了数学库开发人员的工作量和难度。自适应性能优化技术可以根据具体硬件结构的特征，自适应地变换执行路径以选择最优实现。保证运行效率的同时，提高程序的移植性，因此被广泛应用到数学库开发中。　　稀疏矩阵向量乘(SpMV，y=A×x)是科学计算中常用到的计算内核之一。传统基于CSR(Compressed Storage Row)存储的稀疏矩阵向量乘实现，其运行效率通常低于硬件浮点运算峰值的10％。首先，我们分析影响稀疏矩阵向量乘的因素，并通过实验进行验证。然后，根据不同矩阵非零元的分布特点，进行相应的优化：　　 ●针对稀疏矩阵向量乘过程中x元素被频繁换入换出，提出cache分块算法以及分块大小确定方案，实现x元素被换出前尽可能被重用；　　 ●针对对角线稀疏矩阵，提出了CRSD(Compressed Row Segment withDiagonal-pattern)存储结构，借助“应用特定对角线格式”对稀疏矩阵相乘进行应用特定的优化。　　 ●针对矩阵中非零元分布主要集中在稠密子块的特点，提出了CSRC(Compressed Sparse Row format with Column-unit)存储结构，通过压缩算法减少索引值容量，并借助列单元重用x元素;　　在具体稀疏矩阵向量乘实现过程中，采用自适应性能优化策略，提高程序移植性及运行速率。尤其CRSD存储格式根据应用矩阵特点自动生成相应的稀疏矩阵向量乘实现。测试结果表明，与现有优化策略相比，我们所提出的方法有很大的性能提升。采用cache分块优化策略后，其运行速率加速比达到1.92。采用CSRC存储格式后的性能加速比可以达到1.78。根据应用特点自适应性能调优后的CRSD实现，与Intel MKL中DIA(DIAgonal format)实现相比，其运行速率加速比可以达到2.37;相对于CSR实现，加速比可以达到4.61。　　目前，多核处理器以及GPGPU(General-Purpose Graphics Processing Unit)计算加速部件在高性能计算机中被广泛应用。国产天河-1A，星云等大型机多采用结点间高速网络连接，结点内多核处理器配有加速部件的混合层次结构。OpenCL(Open Computing Language)使GPGPU被广泛应用到科学计算过程中。首先，在GPU上使用OpenCL实现了基于CRSD存储格式的稀疏矩阵向量乘。该实现借助代码生成器在运行时动态生成稀疏矩阵向量乘Kernel代码。然后，在CRSD多核优化的基础上，实现了CPU/GPU混合编程。并提出了CPU/GPU混合实现时的任务划分策略，实现负载均衡。该划分策略还能有效判断CPU/GPU混合并行编程是否能够提高运行速率。与现有优化(Bell and Garland，SC2009)中四种存储格式的最优实现相比，基于CRSD的GPGPU Kernel实现，对双精度和单精度处理的加速比分别达到1.52和1.94。CPU/GPU混合优化后的性能实现相对于CRSD多核实现的性能加速比可以达到1.56。

其他文献

基于Web的工程绿化图形信息管理系统的研建

随着科学技术的发展,计算机辅助设计、网络和数据库技术的广泛应用,在工程绿化设计领域,图形、图纸的运用越来越多。这些图形文件数量庞大,种类众多,管理复杂,检索,查阅十分

学位

工程绿化图形管理SSH组合框架Web使用挖掘FP-Growth算法

BLAS库在龙芯3A上的实现与优化

基本线性代数函数库BLAS(Basic Linear Algebra Subprograms)是高性能计算中最基本最重要的数学库之一，它的性能对超级计算机的性能有着极大的影响。目前BLAS库已经成为初等线

学位

运算控制器芯片设计多核并行龙芯3A

三维引擎中内存对象管理器的设计与实现

近年来，伴随着中国的产业升级，三维引擎的仿真功能在工业界的重要性愈加提升。在包括三维引擎在内的各种大型程序中，生命周期与资源管理一直是业界的一个难题。　　针对三维引擎

学位

三维引擎对象析构资源管理内存分配器

网络故障管理中定位检测机制的研究和实现

网络故障管理技术是通信系统中网络管理的核心,是维持网络高效运行的关键因素,而故障定位检测作为网络故障管理的关键功能之一,其技术、算法实现的好坏将决定整个网络自动化

学位

网络故障管理故障定位分层诊断模型

智能模式识别新方法及其应用研究

随着人工智能理论的研究深入,模式识别的研究取得了更进一步的发展,可应用的领域也不断的扩展开来。智能与模式相结合,利用机器模拟人类感知外界,包括接受信息,处理信息等,因

学位

智能模式识别径向基函数中心超平面神经网络张量分解核函数流形学习

紫外光非视距通道信道估计算法研究及DSP实现

紫外光非视距通信是建立在紫外光特有的大气散射特性基础上的新型通信方式。由于近年来光电器件性能不断提升,这种通信方式受到了广泛地关注。紫外光通信保密性高,可用于复杂

学位

紫外光非视距通道信道估计接收机系统LMS算法传输性能数字信号处理

无线传感器网络节点定位算法研究与实现

无线传感器网络(WSN, Wireless Sensor Networks)由众多能量受限、计算能力受限、存储受限的传感节点组成,它把逻辑上的信息世界与客观上的物理世界无缝地连接在一起,将彻底

学位

无线传感器网络定位半监督学习QR分解

基于Xforms标准的可视化智能表单系统原型的研究与设计

表单作为Web中数据采集的工具,是电子化办公不可缺少的一部分。随着企业信息化的发展,对各种表单的需求日益增加。传统的Html表单,将数据、显示、逻辑捆绑在一起,开发周期长

学位

XformsEclipse插件GEFXML数据库智能表单

蛋白质定量和分子动力学模拟若干算法的CPU并行设计与实现

基于质谱的非标记定量是定量蛋白质组学中一个较为重要的新课题，这项技术不使用同位素标记等化学手段，而是通过对原始质谱数据的分析和处理来进行蛋白质定量。QuantWiz是我们实

学位

蛋白质组学分子动力学模拟仿真软件设计

遥科学仿真系统时间管理技术研究

遥科学是人类与位于遥远距离的实验设备之间实现交互的一种模式,在一定程度上延伸了人类的感知能力与行为能力。遥科学以其安全性高、可靠性好和成本低的特点已被广泛应用于

学位

遥科学仿真系统时间管理时间回跳连续离散混合仿真

SpMV自适应性能优化与混合并行编程关键技术研究

与本文相关的学术论文