面向移动嵌入式设备的MobileNet卷积神经网络计算加速研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户：coldbee

【摘要】

：

【作者】

：

付凌浩

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着卷积神经网络（CNN）技术的不断发展,为完成更复杂的特征提取任务、获得更高的识别精度,CNN的层次越来越深,计算量与参数量也越来越大,这使CNN算法对所部署设备的计算资源、内存资源以及能量资源有越来越高的需求。然而,在许多现实应用中,需要广泛地将CNN技术应用到计算资源、内存资源以及能量资源受限的移动嵌入式设备中,而且这些设备往往有着实时性、低功耗的要求。因此,对CNN的计算速度、计算能效以及内存消耗量进行优化,使其实时、低功耗地部署在移动嵌入式设备上,具有重要的研究意义。针对上述挑战,本文采用软、硬件两方面协同优化设计的研究思想,针对MobileNet模型设计了FPGA加速器,并对模型进行了轻量化改进,具体研究工作:（1）针对移动嵌入式设备计算资源、能量资源受限,但同时又要求实时、低功耗地运行CNN的挑战,本文采用HDL硬件描述语言,基于可编程FPGA,设计了一种高度匹配MobileNet算法计算特性的专用硬件加速架构,通过硬件实现算法,降低了MobileNet的计算时延与能耗。针对移动嵌入式设备存储资源受限的问题,该加速器的架构设计采用了资源可复用和可配置的模块化思想,从而有效降低了其内存资源消耗量,使得具有27层网络的MobileNet前向传播算法也能在资源高度受限的FPGA开发板上部署。（2）在许多卷积神经网络算法中,卷积层计算量占总计算量的90%以上,因此提高卷积计算速度是加速器设计的重要目标。为提升MobileNet加速器的卷积计算速度,本文首先分析了模型中三类卷积计算的并行计算特性。然后,分别为这三种卷积计算定制了独立专用的并行化加速方案。上述独立定制方式,提升了卷积计算的速度,但却增加了卷积运算模块的资源消耗量。因此,本文进一步采用通用模块设计思想,针对三种卷积计算的共性运算环节,设计出可供三种卷积共享使用的通用卷积计算引擎,以及对应三种并行化加速方案的专用访问控制模块,从而实现了以较低的资源消耗量,提升卷积计算模块计算速度的目标。（3）针对MobileNet模型参数量以及特征图数据量占用的存储资源多,从而导致数据传输时延高、能耗高的问题,本文采用软硬件协同优化的思想,实施了适用于上述硬件加速器的模型轻量化策略。首先,基于FPGA硬件加速器的结构特性,对适于在FPGA加速器中应用的轻量化方法进行了评估。然后,依据评估结果,实施了结构化剪枝、BN层隐藏和参数量化等轻量化方法,从而从软件优化的角度,进一步降低了模型的内存消耗量和计算量,使MobileNet更适用于在实时、低功耗且内存资源受限的移动嵌入式设备上使用。在实验环节,本文采用HDL硬件描述语言,基于Intel Cyclone V FPGA,使用上述设计方案,实现了一个MobileNet硬件加速器。实验结果表明,在50MHz时钟频率下,整个加速器的功耗仅为0.919W。当设置卷积计算引擎的并行度为8时,得到的图像识别帧率为43.10fps。采用多种模型轻量化方法后,可进一步将识别帧率提高到50.18fps。为评估该FPGA加速器的性能,首先将其与CPU和GPU的计算性能进行了比较。实验结果表明,执行相同的MobileNet模型时,本加速器的速度/功耗为Intel i7-7700 CPU的354.5倍,是GTX1050 GPU的19.3倍。与相关研究工作中的FPGA加速器的性能相比,本文设计的加速器占用的资源量相对较少,在图像识别帧率（fps）方面具有一定的优势。尽管受限于板上的计算资源,该加速器在计算性能（GFLOPS）方面,略逊于其他FPGA加速器,但在功耗以及性能功耗比方面则具有明显优势。上述实验结果表明,本文设计的FPGA加速器适用于部署在移动嵌入式设备上,应对嵌入式应用实时性、低功耗的挑战。

其他文献

基于U-Net的低质量文本图像二值化方法研究

文本图像二值化是文本分析和识别的重要预处理步骤之一,目的是将文本图像中前景文本与复杂背景分开。而文本图像在存储过程中会受各种物理因素影响而发生退化,例如产生页面污点、纸张破损、背景渗透等,形成低质量的文本图像,这些复杂的退化因素为文本图像二值化带来极大挑战。因此,实现低质量文本图像的精确二值化任务具有重要的研究意义和应用价值,本文研究的主要内容与工作如下:（1）针对低质量文本图像中存在大量与文字笔

学位

中文隐喻的识别与情感分析

隐喻不仅是一种语言现象,也是一种认知手段。随着信息技术的高速发展,隐喻计算已经成为自然语言处理中的重要任务,对信息检索、机器翻译和舆情分析等领域有着重要的推动作用。作为隐喻计算的基础和重要组成,隐喻识别和隐喻情感分析旨在赋予计算机像人类分析隐喻的能力,本文围绕隐喻识别和隐喻情感分析开展了如下研究工作:针对现有研究在隐喻识别中的非通用性,本文提出了一种通用的基于句法结构的隐喻识别方法（Metapho

学位

从传统迈向新型：文化企业数字化转型的内涵认知、制约因素与路径选择

文化企业数字化转型的本质是企业通过使用新的数字技术来改进企业的核心业务和产品理念，从而蜕变成一个新型文化企业的过程。与传统文化企业相比，新型文化企业具有数字化的内容生产、高价值的驱动因素、融合性的经营范围、多元化的盈利模式等特征。我国传统文化企业数字化转型存在许多制约因素，主要表现为：传统文化服务业自身存在低效率问题；国有文化企业转型长期面临体制性障碍；中小文化企业缺乏资金、技术、人才和政策支撑。

期刊

跨项目软件老化缺陷预测

软件老化（Software Aging）是指在系统长时间的运行中,由老化相关缺陷（Aging-Related Bugs,ARBs）引起的系统性能不断下降并最终可能导致系统崩溃的现象。老化相关缺陷主要包括内存泄漏、套接字泄露、未释放的文件资源等。软件老化现象已被发现存在于多种软件系统中,如Linux操作系统、Android操作系统、Java虚拟机、军事系统等,这种现象使软件不能高效、稳定的运行,有可

学位

基于粗细粒度融合与关键帧提取的时序动作检测方法

近年来,随着4G的普及,移动互联网的快速兴起,海量的视频信息被广泛的应用于现代社会的各个领域。其中识别视频片段中的动作已经成为计算机视觉领域的一大重要挑战。目前虽然对经过修剪的视频片段进行动作识别的方法已经取得了巨大的进展,识别精度显著提升。但是真实场景中,绝大部分视频（如网站视频、电影视频、监控视频等）会包含多个动作片段与大量与动作无关的背景片段,目前对其进行智能化视频分析水平远没有达到应用要求

学位

数字化转型与企业全要素生产率

以2007—2021年沪、深A股上市公司为研究样本，采用文本分析法构建数字化转型程度指标，从微观企业层面探究数字化转型对于全要素生产率的影响及作用机制。研究发现，数字化转型可以显著提升企业全要素生产率，这一结论经过一系列内生性和稳健性检验后依然成立。路径分析表明，企业数字化转型通过加强内部控制、推动技术创新、优化人力资源结构的途径提升了全要素生产率。异质性分析发现，数字化转型对企业全要素生产率的促

期刊

基于GAN的多图像域人脸属性迁移方法研究

人脸属性迁移是一种计算机视觉与图像处理领域中有效降低编辑图像复杂性的图像处理技术,被广泛应用于辅助人脸识别、人机交互和娱乐社交等领域中。人脸图像的属性特征之间存在较强的关联性,添加微笑、摘除眼镜、改变性别等复杂的人脸图像编辑会涉及关联性特征的变化,为了得到更好的人脸图像编辑效果,本文基于生成对抗网络分别对端到端和连续化两种多图像域人脸属性迁移方法展开研究和改进。主要工作如下:（1）针对采用离散形式

学位

企业数字化转型的总体性分析

文章对企业数字化转型中的影响因素和实施策略进行了陈述，并分析了成功案例和经验，得出了要注重数字化基础设施建设、管理和应用数据资产、积极推动数字化文化建设的结论，最后预测了企业数字化的机遇和前景。

期刊

移动边缘计算中基于激励机制的视频协作传输策略研究

随着智能设备存储和传输能力的提升,移动边缘计算网络中距离较近的用户可通过设备-设备连接共享视频内容。然而考虑到提供视频协作服务的中继传输节点个体利益,基于移动边缘计算的视频协作传输系统仍面临许多潜在的问题。首先是中继传输节点存在隐私数据泄露的风险,其次是移动特性导致视频服务质量难以量化,最后是用户间社会属性影响D2D通信链路的建立。因此有必要针对上述问题设计合适的激励机制,促进能够提供高质量视频服

学位

基于Transformer的非自回归中文语音合成方法研究

得力于深度学习技术,现阶段语音合成过程已得到极大地简化,合成语音的自然度也得到了极大地提高。但在中文语音合成领域中仍存在着一些难点和特色:（1）当使用音素作为输入时,中文语音合成模型需要前端处理网络将中文文本转化为音素,并且现阶段缺少开源的＜文本,拼音＞数据集进行模型训练;（2）中文语音合成模型存在训练时间较长、合成质量有待提高的问题;（3）语音克隆模型存在合成语音相似度不高的问题。本文围绕中文语

学位

面向移动嵌入式设备的MobileNet卷积神经网络计算加速研究

与本文相关的学术论文