深度神经网络压缩与加速方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:cz9104
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为人工智能领域的核心技术,深度神经网络(Deep Neural Networks,DNNs)近年来在人脸识别、视频处理、机器翻译、搜索推荐、生物医学等众多领域得到了广泛的应用。然而,在深度神经网络的性能不断提升的同时,其宽度和深度也在不断增加,甚至诞生了参数量在千亿量级的超大模型。深度神经网络的高存储占用和高计算负载问题给当前的硬件设备带来了巨大的压力,尤其是资源受限的移动设备和可穿戴设备。因此,如何有效地实现深度神经网络的压缩与加速成为学术界和工业界的研究热点。另一方面,众多研究表明深度神经网络中存在大量的参数冗余,且用于端侧推理的输入数据具有高时间冗余性,这在一定程度上表明了模型压缩与端侧加速的可行性。本文针对深度神经网络存在的参数冗余问题和端侧神经网络推理中存在的时间冗余问题,从模型压缩与推理加速两种不同任务出发,对深度神经网络的结构化剪枝和端侧推理加速问题展开了深入研究,特别是针对计算机视觉中卷积神经网络的压缩与推理加速。本文的主要研究工作与贡献总结如下:(1)提出了一种基于信息熵的网络剪枝方法。传统方法基于网络激活值或特征图均值向量制定剪枝决策,而忽略了特征图重要的空间信息,无法准确评估卷积滤波器的特征提取能力。针对此问题,本文提出了一种基于信息熵的滤波器剪枝方法,引入熵来评估特征图的全局信息量。首先,构建了特征选择模块以制定修剪决策。为充分考虑特征图空间信息且避免单个样本偶然性,特征选择模块将每个特征图通道列扁平化,并基于大量随机输入确定每个通道的平均熵权重。然后,考虑到不同层的信息分布差异,设置全局的熵比率为不同的层确定合适的修剪率。接下来,通过迭代式剪枝进一步提升压缩上限。最后,在多个常用深度神经网络和数据集上验证了所提出方法的有效性。其中,对于经典神经网络VGG-16,本文方法在CIFAR-10上实现了 92.9%的参数剪枝和76%的浮点运算量(FLOPs)压缩,且没有带来明显的精度损失。(2)提出了一种基于权重相关滤波器门的端到端网络剪枝方法。修剪指标、修剪率、效率约束是网络剪枝中的三个挑战性问题。传统修剪指标通常为手工设计或引入数据驱动的尺度因子,这些方法加入了人为干预或易受输入数据的影响。修剪率通常人工设定,无法充分考虑不同层的冗余差异。效率约束方面,传统约束指标(参数量、FLOPs)与实际推理耗时之间存在不一致问题。本文提出了一种新型的滤波器剪枝方法,旨在通过端到端的方式较好地解决上述三个挑战性问题。针对修剪指标问题,提出一种权重相关的滤波器门以直接学习滤波器权重到修剪决策的映射关系,避免了人工干预;针对效率约束问题,提出一种可切换的效率感知模块,以梯度的方式为剪枝过程提供硬件耗时或FLOPs约束;同时提出一种效率感知的损失函数,用于优化各层的修剪决策与修剪率,以获得符合“精度-效率”最佳权衡的轻量化模型。实验结果表明,本文方法在性能上显著优于以往的方法。例如,在ImageNet数据集上,相比于同FLOPs的ResNet-34、ResNet-50、MobileNet-V2等基线模型,本文的压缩结果在更低的硬件耗时下,精度分别提升了 1.33%、1.28%、1.1%。(3)提出了一种基于语义记忆的移动端卷积神经网络推理加速方法。生物学实验表明,人脑可以通过激活神经元上更快的记忆编码和访问来加快重复呈现对象的视觉识别。受到上述启发,本文首次提出语义记忆(semanticmemory,SMTM),用于加速端侧卷积神经网络推理。SMTM采用分层记忆架构来利用移动视频中感兴趣对象的长尾分布和时间局部性,并进一步提出几种新的技术使其发挥作用:1)SMTM将高维特征图编码为低维语义向量,以执行低成本且准确的缓存和查找;2)考虑到不同网络层的固有特性,SMTM提出一种新的度量标准来确定退出推理的最佳时机;3)SMTM自适应地调整分层记忆区的缓存大小和语义中心以适应场景的动态变化。最终,SMTM在商业化卷积神经网络推理引擎上进行了原型设计,可以在移动端CPU和GPU上执行神经网络的推理加速。在大规模数据集和多个基准模型上的实验表明,SMTM可以显著加快模型的推理速度,相对于基线最高可实现2倍的加速,相对于先前的缓存设计方法最高达到1.5倍的加速,且精度损失在可接受范围。
其他文献
本文建立并发展了一套有效且稳健的精确手段,将描述引力成团性的扰动理论应用到大尺度结构巡天数据的轻度非线性区间,从而提取可靠的宇宙学信息,用于分析宇宙大尺度结构(LSS),这便是大尺度结构的有效场论(EFTofLSS)。我们将着重研究通过 EFTofLSS 方法对 Baryon Oscillation Spectroscopic Survey(BOSS)巡天数据进行分析。首先我们研究了只通过LSS的
最大限度地延长网络的寿命是无线传感器网络(WSN)中的一项关键挑战。当WSN中的传感器节点(在传感区域中通常无法直接访问)由电量有限或不易更换的电池供电时,这项挑战显得尤为迫切。传感器电池电量耗尽可能导致网络拓扑的改变或网络寿命中止。因此,延长传感器网络的寿命具有重要意义。除了能量问题之外,还有受限的处理和存储能力、可扩展性、短距离传输以及它们在传感器网络中的位置等其他问题。传感器节点的无线电通信
基于电化学的高效能量转化与利用有望缓解传统化石燃料所带来的能源和环境压力,而电催化剂的精准研发亟需厘清不同材料的内在构效关系并掌握工况条件下的性能演化规律。作为当代最重要的大科学装置之一,同步辐射已逐渐成为探索电催化前沿科学问题的综合研究平台。特别是,同步辐射谱学技术的发展为明晰电催化材料的构效关系,并进一步指导其精准制备带来了重要契机。其中,同步辐射X射线吸收谱具有元素选择性,可以探测样品的局域
视频语义分割是计算机视觉领域的基础任务,旨在为每帧图像上的像素点进行语义类别标记,从而获取对周围场景的像素级语义解析,在智能交通、自动驾驶等领域具有广泛且迫切的应用需求。不同于图像数据,视频数据一方面蕴含了丰富的时序信息,反映了物体的运动规律,可以为语义分析提供重要先验,但另一方面视频内容往往更加复杂且数据量更大,难以获取完整数据标注,导致模型学习更加困难,实际部署时计算资源消耗巨大。因此,视频语
物质在极高密度下会呈现怎样的状态?并合致密双星系统如何形成与演化?这是引力波天文时代有待解决的两个重要的科学问题。致密物质的状态方程是解决第一个问题的关键。然而,在核饱和密度以上,通过理论计算和地面核物理实验等方式来确定状态方程都遇到了瓶颈。中子星则为研究高密度情况下的状态方程提供了理想的天体物理实验室。而并合致密双星的统计分布特征则会为解决第二个问题提供重要的线索,随着探测到的引力波事件的增加,
化学发光是检测生物体液中重要分析物的最灵敏方法之一。化学发光是一种发光现象,由发光体与其共反应物之间的化学反应产生,而无需使用外部光源。化学发光最常见的优点是快速、廉价、高灵敏度、高选择性、宽线性范围和可控发射。自1928年以来,大多数报道的化学发光系统使用过氧化氢(H202)和溶解氧作为鲁米诺和光泽精化学发光的共反应剂。H202和溶解氧可以与多种过渡金属阳离子相互作用,导致选择性和稳定性差。因此
材料的拓扑性对其物理性质的影响拓展了人们对于物理世界规律的认识。人们通过对绝缘体、半导体及金属(半金属)中拓扑物理性质的研究发现了具有不同电子能带结构特征的多种拓扑材料,如狄拉克半金属和外耳半金属。这些拓扑材料的输运性质对费米能级附近的拓扑能带非常敏感。大多数拓扑材料的拓扑能带交叉(狄拉克/外尔点)或高于费米能级或低于费米能级,对其本征物理性质的影响并不明显。因此,需要通过施加压强、磁场、应力或者
电动汽车作为一种新兴低碳交通工具,是解决能源短缺和环境污染问题的有效手段。使用锂电池作为电动汽车主要动力来源,可以有效地减少温室气体的排放,从而达到环保和低碳的目标。在车用环境下,单一锂电池系统经常需要面临大倍率、高频率的充放电工况。长期工作在这种工况下,锂电池会出现性能急速下降和容量快速衰减的现象。由超级电容和锂电池组成的车用混合储能系统是代替单一锂电池储能系统的有效解决方案。然而,电池和超级电
自组装是组装基元通过自下而上自发形成有序结构的过程,是制备有序材料的有效方法之一。研究表明,当组装基元在受限条件下组装时,往往会表现出不同于非受限状态下的组装行为,可以得到非受限状态下难以获得的有序自组装体。目前,人们对有机高分子的受限自组装研究已经较为深入,而采用受限的策略制备形状可控且结构均一的聚合物/功能性无机纳米粒子复合有序组装体,仍面临较大挑战。特别是当组装基元在软受限环境下组装,并且与
基于汽车行业安全性、轻量化和制造成本等方面的广泛需求,轻质结构材料得到了快速发展,而新一代先进高强钢(AHSS)在汽车用轻量化材料中被广泛应用以满足新能源汽车等特定结构件的使用要求。Mn含量为4~12 wt.%的中锰钢凭借其较低的合金成本和优异的综合力学性能,被国内外研究学者所密切关注。中锰钢的力学行为受到亚稳态残余奥氏体的相变诱导塑性(TRIP)效应的控制,该效应由退火工艺决定。因此,中锰钢研究