实数FFT算法在ARM V8处理器上的实现与性能优化研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:xmy870129
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
快速傅里叶变换(Fast Fourier Transform,FFT)算法是离散傅里叶变换(Discrete Fourier Transform,DFT)或其逆变换的快速算法,是处理器基础软件生态的重要组成部分,在工程、科学、物理和数学等领域的应用十分广泛。实数FFT算法作为输入或输出为实数序列的离散傅里叶变换,在智能计算、图像处理、数学等领域具有广泛的应用。随着应用场景的日益复杂化,这些应用领域对FFT算法的性能也提出了越来越高的要求。因此,研究FFT算法、特别是实数FFT算法的高性能实现和优化方法,满足应用领域日益增长的性能需求具有十分重要的意义和应用价值。随着ARM体系结构的发展,特别是ARM V8-A新一代ARM体系结构的推出,ARM的应用领域从嵌入式端逐渐扩展到服务器端。我国的天河E级计算原型机、日本的“富岳”超算系统都采用了ARM架构。随着ARM处理器应用领域的不断扩展,构建基于AMR体系结构的基础软件生态已经成为当前的研究热点。FFT作为基础软件生态的重要组成部分,研究FFT算法在ARMV8架构上的高性能实现具有重要的实际意义。针对ARMV8计算平台的架构特征,本文首先从蝶形网络优化、大基网络级数降低、大基蝶形计算优化、SIMD汇编优化以及寄存器使用策略优化等方面研究了复数FFT算法的高性能实现和优化方法,特别是针对FFT大基的计算特性,突破了由于寄存器资源缺乏导致的性能瓶颈并总结了一套Cooley-Tukey FFT算法的高性能实现策略和优化方案;并在此基础上,研究实数FFT算法的高性能实现和优化方法,定义了任意规模实数FFT的蝶形网络构建与蝶形计算方法,最终完成了R2C和C2R FFT算法在ARM上的高性能实现。实验结果表明,在ARMV8华为鲲鹏920处理器上,实现的大基复数FFT算法和实数FFT算法,较ARM公司推出的高性能商业库ARMPL 20.0.0(ARM Performance Library)和开源FFT算法库FFTW 3.3.8(Fast Fourier Transform in the West)性能有明显提升:复数大基FFT较中小基性能有明显提升;实数FFT算法较C2C_Split计算方式有明显性能提升。本文研究的高性能快速傅里叶变换算法库在鲲鹏社区贡献了力量,对我国国产处理器和基础软件生态体系有着重要的意义。本文的主要贡献如下:(1)针对复数FFT算法,总结和重构蝶形网络,同时利用DFT矩阵的对称性和周期性,大幅降低了大基蝶形计算的复杂度;特别是针对R14,R20等大基的计算特征,解决了由于寄存器不够用导致的性能瓶颈;(2)针对实数FFT算法,重构了实数FFT计算的方式,通过蝶形网络优化、蝶形计算优化和底层汇编并行大幅提升了实数FFT算法的性能。最终实现了任意规模的实数FFT计算,弥补了现有C2C_Split算法无法计算奇数序列的缺陷。完善了Open FFT算法库,为鲲鹏社区贡献了力量。(3)提出了一套FFT算法在ARMV8架构上的实现策略和优化方案,并构建了一个可跨平台移植的高性能FFT算法库。
其他文献
报纸
主动脉弓部病变(Aortic Arch Pathologies,AAPs)包括主动脉弓动脉瘤、动脉粥样硬化、动脉夹层等,这些疾病极大地危害人体健康甚至危及生命。主动脉弓腔内修复技术在过去的十年中取得了很大的进展。模块化内嵌分支支架(Modular Inner Branched Stent Graft,MIBSG)是近年来研究者提出的一种治疗主动脉弓部病变的新型支架技术,已经应用于临床,且取得了良好
高强预应力混凝土管桩(简称PHC管桩)是最常用的桩基础之一,因其造价低、承载力好、施工方便等优点,经常被用于高层建筑、港口、码头、输电线塔等工程的基础。而管桩在土体之中时,不仅承受上部结构传来的竖向压力,有时还有弯矩及上拔力的作用。例如输电线塔有时会受到电线的水平拉力,导致线路塔基础处产生弯矩,使得基础不同位置桩所受压力不同,或者受到向上的拉力。实际管桩发生的破坏也都是由水平与竖向组合力造成的。而
屈光手术是目前世界上最广泛的用来治疗近视眼的方法,现今人们越来越重视术后角膜的安全性,术后的视觉质量以及屈光状态的稳定性。研究角膜的力学特性对揭示术后角膜的恢复机制具有重要的意义。目前对角膜力学特性的研究,尤其是其弹性模量值的研究差异比较大,导致对不同屈光手术后角膜的安全和稳定存在分歧。压痕法可以保持角膜的完整性,是分析其力学性能的常见方法。JKR(Johnson-Kendall-Roberts)
地震的作用是多维的。多维地震作用下,结构的抗侧力构件会受到轴力、双向水平剪力、双向弯矩和扭矩的作用,如此复杂的受力状态必然导致复杂的结构反应。研究复杂响应下构件的滞回行为可以更加精确的反应地震作用下结构的真实响应,而考虑局部屈曲影响的双轴压弯恢复力模型是对薄柔框架结构进行抗震分析研究其抗震性能的基础。论文的工作主要包含以下几个方面:首先对目前抗震研究中常用的恢复力模型形式进行了综述,比较了多种不同
激光显示技术凭借其激光显示具有显示色域范围大、颜色饱和度高、显示亮度高等优点,成为继CRT、等离子、LCD/LED显示技术之后,最具潜力的新一代显示技术。然而激光光源的高相干性,将导致激光投影显示中存在散斑噪声,其严重影响成像质量,阻碍了激光显示技术进一步的发展。因此,抑制散斑噪声是激光显示技术亟需解决的关键问题。本文我们利用混沌激光的低相干性实现了激光散斑的有效抑制。实验中,我们使用激光显示中常
铜基纳米材料由于低成本且具有独特的电、化学和热性能,对研究者具有巨大的吸引力,并且在催化、传感器、生物医学等方面具有广泛的用途。但是传统方法制备的材料分散性差,且难以实现独特结构的制备,因此对材料制备方法的探索具有重要的研究意义。近年来,一种天然的生物质资源-蛋壳膜(ESM),引起了研究者们的广泛关注。它是一种可持续再生的生物材料,由高度交联的蛋白质纤维组成,呈现三维分层多孔网络结构,有利于分子交
随着人们生活水平的不断提升,对环保质量的要求也在不断提升。而集中供暖以其良好的供热质量、超高的供热效率以及较小的环境污染而受到许多人的热爱。随着我国城市不断发展,城市化进程不断加快,城市大部分家庭中都实现了集中供热。根据对城市集中供热系统进行分析,其主要是利用输送管道等作用将热源所产生的热能输送到用户家庭内,为用户提供热能。但是在实际的供热过程中热网会受到多种因素的作用从而产生水力失调、热损等问题
布里渊动态光栅(BDG)是基于光纤中的受激布里渊散射效应产生,具有全光生成、读写分离、可快速重构、多参数可调等优点,目前已在温度和应变的无交叉敏感测量、高空间分辨率传感、周围介质浓度感知、光延迟线、光信号存储以及全光触发器等领域得到应用。然而,传统的BDG存在难以稳定维持、易产生多光栅等问题。为了解决上述问题,本论文利用混沌激光具有图钉状的自相关特性,首次在保偏光纤中实验产生了混沌BDG,进一步研
粒子物理是研究基本粒子的性质及其相互作用的基础学科,是当今科学技术发展的最前沿。近年来国际上对气体径迹探测提出了更高的物理需求,时间投影室(TPC)作为核心径迹探测器的重要选项,要求其探测精度达到百微米量级。面向高位置精度(~100μm)的探测需求,不但要发展相应的探测技术,还需要考虑针对大尺寸探测系统的标定研究,紫外激光模拟特定径迹是一种新型、有效的测试方法,国际上ALICE、STAR时间投影室