论文部分内容阅读
合成孔径雷达正朝着高分辨率、大幅宽、多波段、多极化和多工作模式方向发展,随之而来的是数据量和计算量的急剧膨胀。同时,合成孔径雷达应用系统主要运行在飞机、卫星、导弹等特殊环境中,小型化、轻型化、低功耗也是其发展的必然趋势。因此,寻找存储容量大、处理能力强,满足机载、星载、弹载等特殊环境的处理平台,并研究基于该平台的实时处理系统具有重要的理论意义和实际应用价值。本文首先将合成孔径雷达应用分为静态目标成像和运动目标检测成像两类,提取这两类应用中的关键数据处理算法,并分别研究这些关键数据处理的细粒度并行算法与结构。具体的讲,主要进行了如下一些研究:1)鉴于FFT变换算法在合成孔径雷达应用中的基础地位,同时针对系统对不同规模FFT变换的设计与实现需求,本文提出了基于参数化模板FFT细粒度并行算法与结构的设计架构与方法,给出了基于参数化模板设计方法的FFT变换的性能模型和硬件资源使用模型。对该设计架构做进一步扩展就可以作为基于参数化模板的FFT硬件代码自动生成架构,为下一步研究工作奠定了基础。2)针对STAP处理中的求解最小二乘方程组,本文对基于Givens旋转、Householder变换、MGS的三种QR分解和基于列选主元的LU分解等四种矩阵分解算法进行了深入分析。分析结果显示,四种矩阵分解算法具有相同的两层循环结构与数据依赖关系。利用该特点,我们首先提出了统一的矩阵分解细粒度并行算法与结构。然后提出了包含可扩展一维线性阵列的统一矩阵分解协处理器结构,并该结构中的处理单元具有统一的存储通道与连接关系,仅是处理单元内部数据通路有所不同。最后基于Xilinx Virtex5 FPGA (Field Programmable Gate Array)实现了IEEE754标准的单精度浮点格式的统一结构矩阵分解协处理器。性能测试结果表明,相对于运行在Pentium双核CPU上的双线程SSE代码,该协处理器可取得2.3到14.9倍的性能加速。3)研究了合成孔径雷达成像系统的细粒度并行算法与结构。针对合成孔径雷达成像算法对矩阵行列交叉访问和DRAM存储器的访问特点,本文提出了可使系统存储带宽平衡且达到最高的最优窗口访问原理,并基于该原理设计和实现了窗口模式DRAM存储控制器,有效缓解了存储墙问题。该窗口访问原理不仅适用于合成孔径雷达成像类算法(如CS算法、RD算法等),也可以方便的应用在矩阵乘、图像处理等需要矩阵行列交叉访问领域中。结合第二章有关FFT变换的研究成果,分别提出了硬件资源充足和不足条件下的合成孔径雷达成像细粒度并行算法与结构。与相关研究相比,利用本文所提结构实现规模为64*64和256*256合成孔径雷达成像的性能分别是DM系统的2.12倍和2.27倍。由于窗口访问方式适用于大规模矩阵的交叉访问,因此对于大规模SAR成像,本章的基于窗口访问系统的优势将更加明显。4)研究了具有优良杂波和干扰抑制性能的STAP处理的细粒度并行算法与结构。STAP处理的输入数据为一个三维立方体结构,处理过程中需要对该立方体两个或三个维度上的数据进行访问。与合成孔径雷达成像系统类似,本文首先针对不同访问需求分别提出了二维和三维访问模式,以便缓解存储墙问题,解决系统的存储访问瓶颈。在第二章FFT变换和第三章矩阵分解类算法研究基础上,提出了STAP处理的细粒度并行算法与结构,并针对自适应处理的特点提出了体循环结构存储器和二维阵列结构。性能测试结果表明,与运行在Pentium双核CPU上的双线程SSE相比,包含16个处理单元的STAP阵列处理器可取得10.50倍的性能加速。5)为计算合成孔径雷达应用系统中各种超越函数,本文最后提出了混合模式CORDIC算法。该算法通过混合旋转角度方法减少硬件代价,并进行收敛域扩展。基于混合模式CORDIC算法,设计和实现了单精度浮点CORDIC协处理器。利用三段包含大量超越函数的科学计算程序核进行的性能测试结果表明,相对于32位Pentium4处理器,32位混合模式多CORDIC协处理器系统的最大和平均加速比分别为47.6和35.2。