基于深度学习的目标检测算法FPGA实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zwj54255
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测在人工智能、医疗研究和国防安全等民用和军用领域等都应用广泛,基于深度学习的目标检测算法是利用卷积神经网络CNN(Convolutional Neural Network)提取特征并完成图像分类和定位,精度和速度相较于传统算法都大幅度提升,但卷积神经网络往往存在庞大的参数量和计算量,并且网络层参数和结构多变,这导致目标检测算法很难应用在资源有限、要求高处理速度和低功耗的嵌入式场合。相较于GPU和ASIC嵌入式平台,FPGA具有低成本、可重构、能效比高等优势,本文在FPGA硬件平台上完成基于深度学习的目标检测算法硬件加速实现,主要的研究工作如下:1.本文针对采用的ZYNQ 7100异构硬件平台,结合以CNN为核心的目标检测算法可硬件加速的分析结果,在一定的设计要求下,完成了基于软硬件协同设计思想的研究任务划分和总体架构设计。2.基于总体架构设计,本文借助Roofline模型评估了一系列典型的基于深度学习的目标检测算法在ZYNQ 7100硬件平台实现时能达到的理论性能上限,同时考虑算法检测准确率、模型复杂度等因素,最终选择了最适合部署在该平台上的目标检测算法Mobilenet-SSD。之后分析了Mobilenet-SSD算法的检测原理和网络结构,明确了面向Mobilenet-SSD算法的软硬件任务分配方案。3.同时考虑Mobilenet-SSD网络结构中的标准卷积和深度分离卷积的DW(DepthWise)卷积,采用并行、流水和双缓冲等硬件优化技术设计了可编程逻辑部分的CNN加速器,并基于分块思想利用Roofline模型寻求CNN加速器最佳的分块系数和并行计算系数。为保证Mobilenet-SSD精度无任何损失,CNN加速器处理的数据类型为32bit浮点数。之后在DMA数据传输模式下对CNN加速器进行调用,并完成PS部分的功能实现。4.本文最后在GVI CXZ7100开发板上进行了功能验证和性能测试,测试结果表明本文的设计功能正确,完全满足设计要求。并且在片上功耗仅为8.527W的情况下,CNN加速器的峰值计算性能能达到26.67GOP/S,比不采用CNN加速器而只利用ARM实现加速了110倍左右。与其他相关研究相比,本文的CNN加速器无论是在计算性能上还是检测吞吐量上都具有一定的优势。
其他文献
网络丰富了大学生思想政治教育的信息;给思想政治教育信息的传播提供了信道;网络的平等交互性有利于思想政治教育工作者收到反馈。但网络同样可以是负面信息传播的信道;网络对高
介绍了大型热电联产机组热网加热器的类型,从设备的投资、运行经济性及可靠性等方面综合论述了供热机组热网加热器的选型原则。在重点论述300 MW级机组应用管式或板式热网加
<正>索赔是指在合同履行过程中,对于并非自己的过错,而是应由对方承担责任的情况造成的实际损失,向对方提出经济补偿和时间补偿的要求。工程索赔是双向的,包括施工索赔和业主
目前,国内油田中的抽油机主要都是传统设备,其缺点是运行效率较低。油田抽油机的节能改造提高了抽油机效率,显著降低采油能耗。论文的研究结合浙江省重大专项“高效节能永磁
随着寄存器传输级甚至行为级的硬件描述语言应用越来越广泛,基于一阶逻辑的可满足性模理论(Satisfiability Modulo Theories,SMT)逐渐替代布尔可满足性(Boolean Satisfiabili
资格证书作为一种评价和认证手段对教育质量的保障起着关键作用。澳大利亚的资格框架在2009年就证书分类、证书结构和框架内容等进行了比较大的调整,以加强对资格证书的质量
<正>华岩(1682—1756),一作华嵒,字德嵩,更字秋岳,号白沙道人、新罗山人、东园生、布衣生、离垢居士等,老年自喻"飘篷者",福建上杭蛟洋华佳(家)人(原白砂里人),后寓杭州。工
目的探讨以脊柱病变为主的多发性骨髓瘤的外科治疗的手术指证、手术方法及效果。方法回顾性分析自2005年1月至2010年1月收治的19例以脊柱病变为主的骨髓瘤患者的临床表现和手
提问是课堂中必备的环节.有效的提问能激发学生的探究欲望,点燃学生的思维火花,唤醒学生的智慧潜能.在课堂上,教师注意提问的开放性,挖掘问题的深度,灵活运用逆向提问,将课初
背景:如何提高牵张成骨过程中新骨形成的速度和质量,缩短牵张成骨治疗时间,减少并发症的发生是目前该领域的研究热点。目的:观察人骨形态发生蛋白2基因修饰自体骨髓间充质干