基于OpenCL的深度学习目标检测算法加速方法研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:xiaoxiaoxiaoren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的飞速发展,基于深度学习的目标检测算法也取得了令人瞩目的成就,甚至达到了实际应用的性能指标。然而,卷积神经网络具有极高的计算复杂度,传统的CPU无法满足实时性需求。于是,GPU作为通用计算单元被用于加速卷积神经网络的训练和测试,但其高能耗不能满足嵌入式应用的需求。FPGA作为可重构逻辑器件,其低功耗的特点使其在边缘端应用部署上具有明显优势。同时,其低延时的特性也使其很适合执行云端流式任务。因此基于FPGA的卷积神经网络加速器设计成为一个研究热点。然而,面向目标检测应用的FPGA加速器研究目前还比较少。本文基于OpenCL异构计算框架,设计了一种可扩展的深度学习目标检测FPGA加速架构。该架构可高效地实现YOLOv2算法的硬件加速,也可适用于其他网络模型,对不同设备也具有很好的迁移性。其中,通过多个内核级联形成的深度流水线能有效缓解带宽压力;三个并行度的设计能满足高计算密集任务的需求;基于折叠行缓存的数据缓存区设计能为架构高吞吐率的实现提供支持。此外,本文基于硬件设计的思想,提出了一系列深度学习目标检测算法的改进方法。其中,对全网络进行的8bit定点数量化,以及对卷积、批量归一化和激活函数进行的层融合技术,极大地缓解了带宽压力;对YOLOv2网络结构进行的合理调整,实现了部分层的并行执行。最后,本文实现了一套完整的设计空间探索流程。通过本文提出的性能、带宽和资源需求理论模型,结合提出方法,能通过理论计算得出本文架构在目标板卡上的峰值性能,为跨设备的快速移植提供了便利。基于提出的YOLOv2 FPGA加速架构,本文完成了面向实时视频流的目标检测系统设计,并在Intel Arria 10 GX1150 FPGA开发板上对YOLOv2多个分辨率输入和Tiny YOLOv2 416 x416输入进行测试。其中YOLOv2 288 x 288输入和Tiny YOLOv2 416x416输入分别达到了35FPS和71FPS的实时速度。与现有目标检测算法FPGA加速方案相比,本文提出的架构有两个优势。一是实现了更高的吞吐率,YOLOv2网络416x416输入实现了566 GOP的峰值性能。二是保持了更高的算法准确度,YOLOv2网络的精度损失在1%以内。
其他文献
目的:研究探讨社区内常见妇科疾病的治疗方法与预防措施。方法:在广西中医药大学附属瑞康医院南城分院进行妇科体检并诊治的已婚女性中,随机选取500名作为研究对象,以问卷调
<正> 自然界万物运行,流动,摩擦,碰击,冲撞,拍打,抵触,爆裂,而发出各种各样的声音。人能说话,唱歌和呼喊。动物也各有自己独特的鸣叫声。除了天然的声音,还有人为的音响,例如
本文阐述了三峡库区旅游资源整合的理论研究和实践情况,探究了阻碍三峡库区旅游资源整合的因素,提出了库区旅游资源整合的发展建议。
随着我国经济和互联网的稳步发展,移动互联成为新时代的特色,商场原有管理系统落后、会员管理粗放、营销方式过时等问题制约了商场的进一步发展。本论文源于实习单位的实际项
针对脑电信号非平稳性、非线性和非高斯性特点,利用小波变换和双谱分析相结合的方法提取视觉诱发脑电特征.采用Oddball实验范式,采集视觉诱发脑电数据.首先,对脑电信号进行少
出境旅游作为旅游市场的重要组成部分,已成为一国旅游业国际化的重要体现。我们通过对国内外的数十家旅行社进行实地调研,根据调研结果探讨出境游中影响华人华侨的相关因素,
通过对大陷胸汤证中的一段原文,据其所述之征试用于临床,并在它的临床应用方面进行拓展,近年来,将大陷胸汤及加味汤剂、丸剂应用于中医辨证治疗中,在脾胃、肝胆、三焦、肾膀
温胆汤源于南北朝时期北周姚僧垣《集验方》(已亡佚),最早见载于唐《千金要方》,《外台秘要》始明确指出其出自《集验方》。由生姜四两、半夏二两(洗)、橘皮三两、竹茹二两、枳
为解决现有的水下速度测试装置存在测试精度低和受水介质特性影响大的问题,设计了一种基于电磁感应原理的测速装置感应式线圈靶水下测速系统.针对水介质特性对测试系统的影响