论文部分内容阅读
Backprojection雷达成像算法运算量极大,对成像系统的性能提出了极高的要求。本文在分析算法特征的基础上充分利用多种并行计算技术设计了一款高性能Backprojection雷达成像系统,提出并实现了多种提高性能的关键技术。针对算法的脉冲预处理部分包含大量的大点数复数向量运算和大点数FFT运算的特点,设计了一种直接支持FFT加速指令的SIMD向量处理器。出于性能的考虑,FFT在以往的系统设计中都是通过硬件加速器完成,而该SIMD向量处理器不仅能高效地完成算法的脉冲预处理部分所有大点数向量运算,还直接支持FFT加速指令,而且该FFT加速指令能提供和专用硬件加速器相同的FFT加速效率,因此避免了在系统中再增加硬件加速器所带来的额外硬件开销。针对算法反投影运算部分对性能要求极高的特点,设计了反投影加速器,其功能是把经过预处理之后的脉冲数据反投影到图像上的每一个像素点,性能达到每个时钟周期完成对一个像素点的反投影。在充分的误差分析的基础上,通过使用合理设计的定点表示代替双精度浮点表示,不仅使逻辑资源的开销降低了约50%,片上存储器资源的开销降低了37.5%,而且还提高了运算精度,相位的最大误差由11°缩小到了1.4°由于成像算法的反投影部分运算量之大以至于一个反投影加速器远不能满足系统性能要求,本文通过把多个反投影加速器集成为一个反投影子系统以并行计算的方式进一步提高计算性能,这涉及到反投影算法的并行化以及并行算法向多个计算单元映射的问题。本文在原始的像素并行方案的基础上设计了脉冲并行方案,并重新设计了反投影子系统的架构,对于集成了8个反投影加速核的反投影子系统,主存储器的访存带宽需求和片上像素存储器组的数量均降低了87.5%.相比于单个反投影加速器,以完全相同的片上像素存储器、完全相同的主存储器访存带宽和8倍的反投影加速核和片上脉冲存储器取得了大于7.99的加速比。此外,针对开发过程中算法仿真时间过长的问题,本文还尝试了通过GPU并行计算的方法加速Backprojection雷达成像算法仿真。结合GPU计算平台和算法的特征分析,选择了像素并行的方案进行加速,原来需要仿真时间5小时23分钟经过GPU加速后只需要3分20秒,加速比达到97倍。