基于异构处理器的Faster R-CNN加速器设计与实现

来源 :北京交通大学 | 被引量 : 4次 | 上传用户:shwjdbr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习技术为机器学习和计算机视觉带来了突破性的进展。深度卷积神经网络具有极高的计算复杂度,CPU处理器面向通用计算设计,并不适合处理卷积计算任务加速。GPU拥有大量并行计算核心,被广泛应用于模型训练阶段,但是在模型推理阶段,多为单数据多指令流的计算任务,不能发挥GPU高带宽的特点,而且GPU的功耗过高,不能满足嵌入式应用的需求。FPGA作为可编程逻辑器件,具有高性能、低功耗、低延迟以及可重构的特点,在终端和云端都非常适合处理卷积神经网络加速任务,所以基于FPGA的卷积神经网络加速器设计成为当前的研究热点。本文针对两阶段目标检测中的经典算法Faster R-CNN,通过软硬件协同设计思想,优化了检测算法、实现了基于FPGA的目标检测硬件加速器的设计。本文首先提出了面向FPGA实现的Faster R-CNN算法优化方法,设计基于Res Net-50的特征提取主干网络代替原有的VGG-16主干网络,在提高特征提取能力的同时减少了网络模型的参数量和计算量;优化并增大ROI池化尺寸,减轻了量化网络模型带来的小目标检测效果不佳的问题;提出将卷积层和批归一化层融合,减少了前向推理的计算量;在保持检测精度基本不下降的前提下,将网络模型进行了8比特定点数量化,对网络模型进行了有效压缩,缓解了带宽压力。其次,本文基于Open CL异构计算框架,设计了FPGA硬件加速器架构。本文设计了数据传输内核以及卷积、最大池化、ROI池化等加速内核,通过管道将多个内核连接,实现了深度流水线设计。针对ROI池化后多个候选区域的分类和回归计算的独立性,将多个候选区域的数据重排,为候选区域的分类回归任务提供了并行性。本文提出了一个优化的设计空间探索流程,通过对硬件设计中的两个可变并行度参数进行多组实验,最终得出本文设计的架构在目标板卡上的峰值性能。论文最终在Intel Arria-10 GX1150 FPGA板卡上设计实现了基于Faster R-CNN网络的目标检测加速系统。在能效方面是CPU的40倍,GPU的1.6倍,在单位时间单位能耗上拥有更强的计算能力。从推理性能来看,本文工作实现了224×224输入分辨率1.73帧每秒、800×600输入分辨率0.75帧每秒的推理性能,其中224×224输入分辨率实现了66GOP/s的峰值性能,相较于先进的Faster R-CNN的FPGA加速方案提升约51%,检测准确率m AP为72.83%,在保证推理性能的同时兼顾了检测准确率。
其他文献
输气管道堵塞在天然气输送及输配系统中时有发生,一旦出现堵塞特别是完全堵塞,必将严重影响整个系统的正常运行,准确快速确定堵塞位置是解堵的关键,目前国内外有关输气管道堵
近年来中国与东盟的双边合作日益增强,伴随着产品内分工和国际分割生产的迅速兴起,使得双方的经贸往来越来越多的集中在了零部件的贸易,并成为了双边发展的最显著特点,一个具有区域特色的产品生产网络逐渐发展起来。生产网络是指各国以自身比较优势分别生产某一产品零部件,然后通过零部件之间贸易而共同合作参与完成产品整体生产过程的新型国际分工形式。汇率在国家的国际发展与交往中的重要地位不言而喻,不可避免的会对双方经
学位
自20世纪80年代以来,私募股权投资基金在我国获得了快速发展,为我国的经济发展起到了重要的支持作用。国有控股私募股权投资基金作为国有资本主导设立的私募股权投资基金,可有效利用政府资源去扶持重点企业和创新企业的快速发展,进一步促进了我国产业经济的发展。在我国当前的供给侧改革和创新型国家建设的宏观环境下,研究国有控股私募股权投资基金的规范化发展情况,将有利于国有控股私募股权投资基金适应当前经济环境,使
学位
道德与法治课在教学时不仅要补充相关时事,还应该与其他学科和相关的德育内容相配合。对于中学生而言最关键实则是进行价值观引导,教学中榜样素材不仅是进行主旋律教育的重要抓手,也是唤醒课堂活力的重要助推器,更易于达成教学目标,矫正学生由于多元文化冲击造成的价值偏差,培养学生的学科素养。迫于中考改革的压力,教师如何在鱼龙混杂的信息中合理准确地选取与运用榜样素材,彰显榜样素材的育人价值和教学价值,激发学生的学
学位
含氮化合物一直以来都是医药、农业和材料等领域中重要的化合物,所以C-N键的生成在有机反应中非常重要,尤其是探索一种条件温和、经济绿色的合成方案更是一个重要的课题。金
为了解释诸如暗物质和强CP问题等一些标准模型没有办法解释的问题,人们提出许多超出标准模型的新物理模型。一般来说,任何整体阿贝尔对称性自发破缺的理论都预言了类轴粒子的
目前,化石能源的短缺和环境质量的恶化是当今社会存在的两大主要问题,严重影响了人类的生存环境,大量的研究学者开始意识到可再生能源的开发迫在眉睫,光催化技术可以将丰富的
安卓平台由于开源性、开放性以及与优秀的谷歌服务的无缝结合,使得安卓一跃成为市场占有率最高的移动智能终端操作系统。移动恶意应用可以窃听通话和窃取隐私信息,给个人、企业甚至国家带来了不容小觑的威胁。移动恶意流量检测一直是各大安全公司研究的热点问题,而目前大多数的研究工作未考虑到真实网络中流量数据不平衡问题,导致分类结果不能很好的贴合实际需求。另外,现有的移动流量分类算法大多采用有监督算法,需要大量有标
发酵蔬菜风味浓郁,口感酸爽,种类多样,但鲜见将生菜作为主要蔬菜原料进行发酵的产品。本文以感官评价筛选出适宜发酵的生菜品种为主要原料,植物乳杆菌V02(Lactiplantibacillus plantarum V02)和乳杆菌V73(Lentilactobacillus diolivorans V73)共同接种进行生菜发酵,研究了人工接种二轮发酵生菜发酵过程的理化指标,并运用高通量测序技术分析了生
学位
中国传统文化历来崇尚道德教育,素质教育观更是把学生的德育培养放在首位。在这样的文化教育背景下,谦让行为作为一种亲社会行为,是幼儿品德教育的重要内容,自然受到研究者的关注和学校的重视。谦让行为是幼儿社会化进程中不可或缺的人际交往策略,大量研究与文献表明混龄教育对幼儿社会性发展起着积极的作用,因此,分析混龄班中幼儿谦让行为表现,探寻促进幼儿谦让行为表现的方法具有一定的现实意义。研究者以济宁市L蒙台梭利
学位