基于MPI+CUDA的MRRR并行算法研究与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:pengxiubin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
矩阵特征值问题作为线性代数的一个重要组成部分,是迅速发展的高性能计算领域中一个重要的研究问题,并在科学计算与工程领域中具有广泛和重要应用。而对称三对角矩阵特征值问题作为对称矩阵特征值求解的关键问题之一,一直是特征值计算中一个活跃的研究内容,因此很多学者提出了许多具有不同特性的算法。其中MRRR算法是近十年来发展起来的求解对称三对角矩阵特征值问题的高效和精确算法。   GPU专为密集型、高度并行化的计算而设计,CUDA技术的产生极大降低了GPU通用计算开发的难度。虽然GPU的计算能力已经很强大,但是对于具有实际意义的大规模矩阵特征值问题来说,单个GPU的计算能力还远远达不到要求,因此设计基于多个GPU的并行MRRR算法具有很大的研究和实用意义。在MRRR算法并行方面,国外已有一些研究,但至今还没有基于MPI+CUDA混合编程模型的并行MRRR算法。   本文针对特征值问题展开研究,主要研究内容如下:   1、对CUDA编程模型从硬件体系结构、软件模型等方面进行研究,并分析影响CUDA程序性能的因素。在此基础上,结合MPI消息传递模型的介绍,对MPI+CUDA混合编程模型的并行方式、适用范围及优势特点进行了深入分析。   2、通过研究支持CUDA架构的GPU多线程硬件体系结构和编程模型,并分析。MRRR算法原理、执行流程,根据GPU结构的特点,提出了适合CUDA架构的两步并行策略。并根据GPU的硬件特性,对算法进行优化,最终实现了基于CUDA的并行MRRR算法,对一万阶的矩阵进行测试,取得了20倍的加速。   3、由于单GPU的资源有限,求解的矩阵规模受到了很大限制,为了计算更大规模的矩阵,在深入研究MPI+CUDA的混合编程模式的基础上,在GPU集群上设计并实现了基于MPI+CUDA的并行MRRR算法,利用MPI进行粗粒度的任务划分;用CUDA来实现细粒度的并行。最终并行程序获得了50倍加速,进而从计算精度和计算时间上说明MRRR算法适合在MPI+CUDA混合编程模型上实现并行。
其他文献
信息技术的发展产生了海量数据。能利用人类视觉感知以辅助知识学习的可视化技术在此背景下应运而生,但目前针对人物信息的可视化技术研究仍然较少。  CADAL中国文学编年史
近年来,随着IPTV、移动电视、在线视频等业务的增长以及互联网、通信网络、广电网络三网相互融合的趋势,视频类业务已成为当前不可忽视的主流业务,而视频类业务的质量也成为各方
随着Intemet迅猛发展、企业需要管理的数据量日益增大,发展内部信息系统、完成企业管理信息化成为企业IT建设的重要议题。由此衍生出了,如何构建合理的可扩展的系统架构模式
近几年来,手机用户数量激增带来了大量移动业务的潜在用户,加剧了各电信运营商之间、各业务提供厂商之间的竞争。以业务为驱动的第三代网络的正式商用,进一步推动了移动业务的发
随着互联网上Web服务的大量出现,Web服务的应用也越来越广泛。如何从大量的Web服务中快速选取用户所需要的服务,成为了一个亟待解决的问题。当前的Web服务发现方法主要有基于关
微小卫星运行在恶劣的外太空环境中,承载着重要的任务,其运行特点及其在军事上的重要意义使其比一般系统具有更高的安全要求。星载嵌入式实时操作系统作为微小卫星系统的软件支
随着信息化建设的不断加强和计算机技术的深入发展,煤炭企业的信息化发展取得了长足的进步,基于各种开发平台所构建的软件系统在煤炭企业中得到应用,这些系统在功能、逻辑上
根据第二次全国残疾人抽样调查的结果,我国残疾人口总数为8296万,占全国人口的6.34%,我国残疾人口在全国各地均有分布,展现出了空间上高度的离散化。而管理这些残疾人相关的康复地
随着社会经济的发展,人们对地理信息的需求越来越多,也越来越多样化。计算机技术在地图领域的应用,也丰富了地图的展现能力,大大增加了地图能给人们提供的服务。人们常使用的公共
云计算是当今的热点话题,在工业界和学术界都得到了广泛的重视和发展。根据服务模式不同,云计算可分为三种类型:IaaS云(基础设施云)、PaaS云(平台云)和SaaS云(软件云)。本文主要