基于可重构计算的矩阵分解并行结构研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:scfeiyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着半导体制造工艺的进步,可编程门阵列(Field-Programmable Gate Array,FPGA)迅速发展,单芯片上可供快速实现的逻辑功能越来越多,基于FPGA的可重构计算在高性能计算甚至是超级计算领域中的巨大潜力逐渐被挖掘出来。当前主流的FPGA芯片上往往具有高密度的可编程逻辑、大量存储资源与计算资源,并通过集成DSP硬核以支持高性能浮点运算部件的实现。这些特点使得可重构计算系统成为加速计算密集型应用的一种非常重要的选择。在众多受到关注的计算密集型问题中,矩阵分解尤其是矩阵三角化分解作为典型的基础类应用始终处于研究的核心地位,在求解线性方程组、求矩阵特征值等科学与工程问题中有重要的研究价值。  纵观国内外研究现状,在矩阵三角化分解及应用领域已经取得了很多研究成果,但仍存在许多亟待解决的问题。根据可重构计算并行结构的特征构建矩阵三角化分解并行计算模型,进一步改善三角化分解硬件结构计算性能及关键技术成为当前该领域关注的课题。针对该课题,本文面向矩阵三角化分解中共有的三角化计算过程,提出具有一般性的矩阵三角化计算FPGA并行结构时空模型以及一种计算复杂度较低的矩阵三角化计算并行结构模板。并围绕三种具体的矩阵三角化分解:Cholesky分解、LU分解和QR分解在并行结构模板上的高性能实现及优化方法开展研究,取得的研究成果包括:  1、提出具有一般性的三角化计算FPGA并行结构时空模型构建方法和一种计算复杂度较低的矩阵三角化计算并行结构模板。(1)对三角化计算线性变换的一般过程进行分析,以子矩阵更新过程为粗粒度计算任务来开发任务间的流水并行;(2)在任务中以列计算为细粒度单位开发数据并行;(3)以求解有限域GF(p)上线性方程组的三角化计算问题为示例,面向三角化计算中子矩阵更新过程中提出适合硬件实现的子矩阵更新同一化算法并向FPGA上映射实现。  2、在三角化计算并行结构模板上实现实数矩阵Cholesky分解,由此提出该算法的高性能FPGA并行结构。分析Cholesky分解的求解特征,引入求解矩阵L的转置LT的LT-SC(LT-Submatrix-Cholesky),从而简化问题的求解。从对比验证的角度,给出两种LT-SC的并行结构实现方案。其中,方案二针对Cholesky分解特有的三角子矩阵更新过程对子矩阵更新同一化算法进行了改进,并在实现时通过增加PE阵列的使能信号向量以支持改进后的算法。提出的Cholesky分解FPGA并行结构采用方案二的实现,实验结果表明该结构与对比方案(方案一)相比具有更高的单位面积性能,且优于相关工作和通用处理器的软件实现。  3、在三角化计算并行结构模板上实现列选主元的实数矩阵LU分解,由此提出该算法的高性能FPGA并行结构。分析LU分解的求解特征,对子矩阵更新同一化算法进行了扩展与改进以支持LU分解的列选主元,并在实现的并行结构中增加与之匹配的硬件通路。提出的并行结构在求解线性方程组完成同时支持前向三角回代及后向回代过程的LU分解,相当于实现了求解实系数增广矩阵的高斯-约当消元算法。同时,针对大矩阵问题提出基于非递归和递归方式的分治策略。实验结果表明该并行结构优于相关工作和通用处理器的软件实现。  4、在三角化计算并行结构模板上实现矩阵QR分解,由此提出该算法的高性能FPGA并行结构。分析QR分解的求解特征,提出基于并行子任务的Givens旋转算法的并行约化方法及QR分解粗粒度并行算法;提出与子任务块行对应的硬件宏模块阵列及粗粒度子矩阵更新同一化算法的实现策略。实验分析表明,设计的并行结构比传统的QR分解实现具有更小的计算复杂度。
其他文献
工作流技术在当今企业级信息化系统中正被广泛的应用,随着其应用的普及,工作流中存在的长事务问题也就成为工作流系统开发者急需解决的问题。与此同时,伴随移动互联网技术的发展
传统几何处理方法依赖于局部几何信息来对三维几何模型进行分析和处理,然而近年来,人们越来越发现仅仅利用局部几何信息很难实现复杂的几何处理任务。随着研究工作的深入,人们开
随着互联网中信息量的快速增长,浩如烟海的信息世界具有无组织,分布广、结构复杂、动态变化等特点,搜索引擎作为信息检索工具成为人们生活中必不可少的一部分。独立搜索引擎的检
敦煌壁画具有深厚的文化内涵和极高的艺术价值。敦煌壁画的动态展现在文化教育和宣传方面有着十分重要的意义。该任务的实现在技术方面包含两方面要求,其一是展现对象的建模方
近年来,模式识别在医学诊断领域中有着广泛的应用,成为了人工智能领域热门的研究课题。随着人们生活多样化以及环境等因素影响,癌症发病率及发病方式也逐年增加和多样化,这为疾病
随着CPU(中央处理器)的计算速度提升遇到瓶颈以及计算机软件技术的不断发展,GPU(图形处理器)技术已经在各项计算机应用中体现出日益重要的价值,GPU早已广泛应用于电脑游戏、模拟仿
本文重点关注图像去噪、图像修补以及图像超分辨率重建的研究。由于成像系统和外界环境等客观因素,在生成、传送和存储过程中,会使得图像的质量有所下降,所以希望能够寻找一种图
脑机接口通过解析大脑皮层神经信息,不依赖于常规的神经通路,构建一条直连外部设备的信息交流和控制通道。该技术可以帮助因车祸等原因造成的高位截瘫病人、残障人士利用意念控
随着影像学诊断技术的不断进步,四维无创诊疗方法对心脏及局部血管的运动过程进行四维动态仿真,能够真实清晰地再现病人心脏及冠状动脉的运动过程。其中局部感兴趣区域的可视化
互联网信息资源日渐激增,如何高效地从中取出有用信息成为学术界的一个重要研究方向。信息抽取是从半结构化或非结构化的数据中抽取出事实信息的过程,它需要对信息进行一定程度