论文部分内容阅读
图像匹配是最为常见的数字图像处理算法之一,常用于运动估计,ATR等领域中。图像匹配不仅要求准确性,而且对实时性的需求也比较的高。图像匹配在ATR系统中是一个比较耗时的环节,特别是当模板较大或者多路模板并行匹配时,针对这一实际难题,本文设计基于NCC算法的ASIC电路来进行硬件加速,以适应对系统实时性能的要求;当模板较小时,本课题结合已有的硬件结构,设计了两种基于CC算法的资源优化型小模板2-D卷积器。针对多路大模板并行匹配的特点,本文分析了以往VLSI实现的结构及硬件资源耗用过多等不足之处,提出了一种基于NCC算法的全新定制的多路大模板并行匹配ASIC结构,完成了芯片架构设计、RTL代码编写、功能验证、FPGA原型验证、逻辑综合、静态时序分析、可测试性设计以及形式验证等ASIC前端设计流程。在算法固有的2-D数据复用特性的基础上,提出了多块SPRAM交叉缓存图像以及片内ping-pong操作的方式,设计了全新的ASIC数据调度方案和整体架构。采用阵列乘法器部分积的原理以及DA算法设计的PE计算阵列,不仅可以支持8路1bit,4路2bit,2路4bit以及1路8bit共四种并行配置模式的可配置性,而且优化了数据通路,大大简化了硬件设计的复杂度。本文对ASIC各个核心模块的电路设计均给予了很详细的介绍,介绍了ASIC的典型应用方式以及级联架构,并分析了ASIC的性能。ASIC可以处理至多8路160×120的模板在511×511的实时图像中并行匹配,支持比上述小的模板和实时图像。在SMIC.18um CMOS工艺下综合表明,ASIC的最高工作频率为110MHz,芯片面积3.2×4mm~2,核心功耗为158mW。当160×120的模板在320×256的实时图像中匹配时,ASIC耗时13.23ms,很好的满足了应用系统的实时性要求。针对小模板的情况,设计了基于CC算法的VLSI结构,也就是常用的2-D卷积器。提出以Zigzag扫描格式和部分数据复用为特点的新计算策略,设计了两种2-D卷积器并进行了FPGA实现,其中I型结构具有较小的外部带宽,II型则不显著增加外部带宽的基础上实现最大的吞吐率,通过性能评估矩阵,相对于传统的硬件结构,两种2-D卷积器均具有小的资源开销,外部带宽以及吞吐率均可以通过设计参数W进行调整,增加了系统设计的灵活度,克服了传统硬件结构不能同时兼顾外部带宽、吞吐率以及片上资源的问题。同时,文中给出了多片级联架构,通过实验对比,文中结构的实时性能高于常用的软件实现,非常适合低成本的实时图像处理系统。