基于感知量化的卷积神经网络加速系统设计

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：zhaoxin1987212

【摘要】

：

【作者】

：

周航

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2021年01期

【关键词】

：

神经网络加速器感知量化训练片上系统 Cortex-M3

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,基于卷积神经网络（Convolutional Neural Networks,CNN）的机器视觉方法已成功应用于安防检测和目标检测等应用。随着CNN模型的改进,计算和存储的需求急剧增加。然而,在一些低功耗的边缘计算设备中,功耗是重要指标,这便限制了卷积神经网络算法对低功耗设备的支持。现场可编程逻辑门阵列（Field Programmable Gate Array,FPGA）具有可配置性和开发周期短等优点,成为了CNN加速器的首选平台。本课题采用Verilog硬件描述语言（Hardware Description Language,HDL）开发,设计了一种以FPGA作为原型验证平台的卷积神经网络加速系统。本文以相关基础原理的介绍为开始,首先介绍CNN的前向传播结构中的基本算子;其次,再介绍CNN算法在硬件层面架构上循环展开的优化策略;再次,针对CNN算法浮点数据造成计算复杂度升高,和存储容量大的问题介绍了感知量化的原理。该方法保证了前向传播过程中全部采用整型数据,简化了前向传播的计算,同时保证网络精度损失较小;最后再介绍了CNN加速器目前采用的系统组成结构,即软硬件分配的策略。而后介绍以Cortex-M3为主处理器（Central Processing Unit,CPU）的CNN加速系统。本文采用Cortex-M3作为CPU,AHB（Advanced High performance Bus）总线为互联矩阵,设计DMA（Direct Memory Access,直接存储器访问）作为数据搬运引擎,设计一种计算加速引擎适用卷积、池化、全连接层计算,在时间上先后计算不同层。加速器部分针对Le Net-5模型的前向传播计算,设计总线接口模块、卷积窗口生成单元、乘累加单元、池化单元、激活量化单元、片上缓存设计和数据调度部分。最后,在Xilinx公司的Artix-7 Xc7a200T芯片上进行了原型验证。在Keil软件上编写C代码,设计了Cortex-M3对DMA的数据调度算法流程,以及对CNN加速器的控制流程。采用MNIST手写数字数据集作为测试对象,识别结果和Pytroch框架下感知量化推理结果一致,准确率达到98.2%。在100Mhz时钟频率下,识别每一帧的时间为5.3ms。

其他文献

基于TFET超低功耗神经元设计

人工智能神经网络已成为当下信息处理技术领域的重要发展方向,相对于软件实现人工神经网络,硬件实现人工神经网络有可以大批量并行处理数据的优势。目前大多数硬件实现的神经元电路由MOSFET器件构成,对于规模越来越大的人工神经网络,电路功耗问题日益严峻。随着器件特征尺寸不断减小,MOSFET器件在纳米量级下短沟道效应越来越严重,使器件功耗和性能恶化,限制了低功耗神经网络的发展。而基于量子隧穿原理的TFET

学位

隧穿场效应晶体管亚阈值区突触神经元

一种新的DRL算法的实现及硬件加速器研究

近年来随着人工智能AI（Artificial Intelligence,AI）领域不断发展创新,深度强化学习异军突起,在工业制造、金融学、心理学、医疗学、汽车自动驾驶等领域得到了广泛的应用。深度强化学习将深度学习与强化学习技术结合,经过近几年的迅猛发展,许多算法相继提出,如A3C（Asynchronous Adavantage Actor-Critic,A3C）,TRPO（Trust Region

学位

深度强化学习DRL算法硬件加速GPUFPGA

基于多传感器信息融合的机器人建图研究与实现

移动机器人建图研究,是近年来快速发展的移动机器人领域中,最为基础与核心的技术。机器人要实现复杂环境下的精确运行,就要以高精度点云地图作为参照。机器人在环境中的自主运动过程可分为以下几个步骤:由各类传感器采集环境数据,将原始数据传输到工控机的机器人操作系统中,按预定规则进行数据运算处理,得到动作指令或姿态位置数据,其中动作指令被传输到电机驱动部分,姿态位置等数据则进行存储及下一步处理。本文提出了一种

学位

多传感器融合激光SLAM超声波GPS定位感知

一款半桥拓扑谐振控制器的研究与设计

随着电子产品的发展,需要满足更高的应用指标,在不增加变换器的体积和重量的前提下,我们不得不追求更高的工作频率来提高开关电源的功率密度。可是与此同时,高频率的开关使得开关损耗非常严重,还伴随着发热现象,其效率也不如人意,并且这也使得电磁干扰变强。为了解决这一问题,软开关技术得以出现,它的目的主要是降低开关的损耗。论文首先对谐振变换器的发展背景以及趋势做出了说明,然后对相关的理论知识尤其是软开关技术展

学位

谐振变换器软开关脉频调制

应用于CAN总线静电保护的低电容TVS二极管设计

CAN是一种串行通信协议,开发之初主要用于连接汽车和卡车的传感器和电子模块,由于CAN总线数据传输的高可靠性,在各种电气领域上的应用越来越广泛。外部的雷击和ESD等电气瞬变会对CAN总线数据传输和硬件带来不可预知的损坏,因此,针对CAN总线就需要给出一系列的保护措施,比如在端口上加入TVS保护器件,基于此,文中重点开展了一款保护CAN总线的TVS二极管的设计和分析。主要工作如下:1、针对CAN总线

学位

CAN总线TVS二极管低电容浪涌保护

面向稀疏神经网络的片上系统设计与实现

深度神经网络算法具有很高的精度,因此受到很多智能计算领域的关注。但是深度神经网络算法的高精度是以巨量的参数和计算量为代价的,这阻碍了大规模的神经网络算法应用在存储空间、能量和计算能力有限的智能硬件平台中。理论上,神经网络的剪枝技术可以大幅度的降低深度神经网络的数据规模和计算量。但是,由于经过剪枝处理的稀疏神经网络的数据具有不规则性,现有的硬件平台执行稀疏神经网络算法面临两个挑战。第一、数据的访存效

学位

稀疏神经网络RISC-VSoC神经网络加速器

一种集成同步整流技术的半桥PWM控制器的研究与设计

随着电子技术的发展,人们对于集成度高、效率高、功能多的的工业电子产品的需求越来越大。半桥变换器由于其结构简单,电压应力小于其它隔离式拓扑,在输入电压高于开关管耐压的场合有着广泛应用。本文着重于输出低电压大电流场景的应用,研究与设计了一款集成同步整流技术、应用于半桥拓扑的PWM控制器。本文回顾了PWM控制技术的原理和控制方式,由于电压型模式的抗噪能力强、调试电路较简单,故选择了电压型模式。并且为了提

学位

PWM控制器同步整流技术半桥变换器前馈斜坡补偿

机器运作环境下用于人机交互的语音识别算法设计

人工智能的快速发展,使得工厂的生产方式日益智能化,人机交互在生产过程中的应用越来越广泛。语音是人机交互的一种重要方式。现如今语音识别技术已经逐渐成熟,在无噪音的场景下可以准确识别大多数语音指令。然而,工厂的环境不是安静的,会掺杂复杂多变的噪声,这对于语音人机交互会产生严重的干扰,降低语音识别准确率和生产效率。语音增强技术用于将纯净语音从带噪语音中分离出来,提高目标语音的清晰度和可懂度,从而保证人机

学位

人机交互语音识别语音增强去噪Transformer机械臂

AGV的5G通信架构搭建及多传感器融合SLAM技术应用

随着计算机技术与通信技术的不断进步以及传感器设备的不断发展,工业领域中的传统制造不断向智能制造进行着转变。其中,工业领域中物料搬运系统的发展与通信系统的发展是智能化转变中的重要组成部分。传统的物料搬运系统一般以AGV作为运输工具,但是传统的AGV存在许多问题,例如状态数据监控数据量大、不能进行实时环境建图以及共享性差等问题。针对这些问题,本文以AGV为研究对象,通过阿里云平台、ROS以及Kafka

学位

AGV5G通信架构SLAM可视化监控

AGV的路径规划与调度在智能制造中的研究与应用

AGV运输系统具有移动载物、安全避障等多种功能,在智能制造中的作用越来越大。AGV在企业制造加工过程中可以灵活搬运各种物料,降低企业人力运输成本,实现物料仓储的完全智能化流程管理,缩减仓储物流费用。本文以智能化制造过程中的AGV路径规划与调度作为主要研究目标,使生产系统能够获得更高的生产效率,从而减少作业成本,提升企业效益。本文介绍了AGV的研究背景以及意义,对国内外关于AGV的研究现状以及路径规

学位

AGV路径规划任务分配遗传算法

基于感知量化的卷积神经网络加速系统设计

与本文相关的学术论文