基于FPGA的稀疏神经网络加速器

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:liulg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来神经网络的研究备受关注,大尺寸的神经网模型在应用中表现出优异的性能。大量的神经网络参数,如,神经元与突触连接,使神经网络具有计算密集和存储密集的特点,难以在资源有限的设备上部署执行。对神经网络进行稀疏化能够减少参数的冗余,移除部分神经元与突触连接。然而,现有的加速器处理稀疏神经网络时,性能提升效果不及网络参数的减少程度,因此,需要设计专门的稀疏神经网络加速器。现场可编程门阵列(FPGA)是常用的加速器实现和验证平台,具有可重构,成本低,开发周期短等特点。本文针对由两种神经网络剪枝技术生成的具有不同参数特征的稀疏神经网络模型,设计相应加速器整体架构与处理预测算法计算核,最终基于FPGA实现稀疏神经网络加速器。本文的主要研究工作有以下几点:1.考虑剪枝技术生成的稀疏神经网络中参数的稀疏程度,选择适合的压缩存储方式,减少参数的存储量;分析预测算法的主要运算操作,设计相应的计算核;考虑FPGA的计算与存储资源,确定硬件处理单元的尺寸,最终实现一个基于传统剪枝技术的稀疏神经网络加速器。2.由于实现的稀疏神经网络加速器加速效果并不理想,因此,对卷积层与全连接层采取不同的剪枝策略,生成新型稀疏神经网络模型。结合卷积层与全连接层不同的参数特点,设计适合的存储方式;分析预测算法的主要计算,设计相应的计算核;基于FPGA的硬件资源,确定计算单元数量,实现一个基于改进型剪枝技术的稀疏神经网络加速器。3.对本文实现的两个稀疏神经网络加速器进行性能验证与分析。分别根据参数稀疏程度的变化,观察两个加速器对稀疏参数压缩存储效率的变化趋势与主要计算核处理矩阵-矩阵乘法与矩阵-向量乘法运算的性能变化趋势;选取典型的稀疏神经网络模型,验证两个加速器相比仅能处理稠密神经网络的加速器的性能加速比。实验结果显示,本文实现的两个稀疏神经网络加速器能够压缩参数存储空间,加速预测算法。其中,基于改进型剪枝的稀疏神经网络加速器更能充分利用计算单元性能达到更好的加速效果。
其他文献
近几十年来,在图像信息方面,网络中用户每天上传的图像数量呈现出爆炸增长的趋势。如何有效的管理这些大量的图像数据,进而建立一个图像检索系统帮助人们快速找到自己感兴趣
网络最大流问题是图论有向图部分的一个非常重要的基本问题,在图论研究领域有着非常重要的理论意义。同时网络最大流在快递企业中心选址、交通分配、图像分割、社交网络Web社
通过OLAP查询可以快速发现数据背后隐藏的信息用以决策分析,但是OLAP查询在执行过程中往往需要对大量的数据进行选择、连接及投影操作,这是一个非常消耗时间及计算资源的过程。
移动互联网的迅速普及,一方面体现在各类移动智能终端的广泛流行,另一方面催生了应用市场的高度繁荣。传统的应用交付模式已不能满足高并发访问下应用的稳定运行和负载能力的
随着近年来互联网的迅速发展,信息时代的到来,作为三网融合下的产物, IPTV已经成为家电领域产业发展的一个重要方向。IPTV集宽带互联网、多媒体等多种技术于一体,向用户呈现
变电站作为电力系统中的重要组成部分,担负着电压转换、电能分配、输配电的控制和管理等重要任务,其安全、可靠地运行是电网安全和稳定的保障。采用以太网作为其通信架构的智能变电站也会面临网络全威胁,而IEC61850和IEC62351标准对智能变电站信息传输的实时性和安全性都提出了极高的要求,因此如何在新的标准和要求下保障变电站信息安全成为一项亟待解决的问题。MMS是数字化变电站常用的一种报文,广泛应用于
随着企业自身业务和信息化建设的不断发展与扩张,企业内部网络的规模也急剧膨胀。同一时间,企业内部网络上所保存的数据资源也呈爆炸性增长。为了能够根据企业内网上的重要数
随着因特网的快速普及和计算机各方面性能指数的不断提高,网络已经渗透到人类生活中的方方面面。网络迅速成为信息来源的主力军并且这些信息还在以指数级别在增长,挖掘出这些信
随着信息技术的迅猛发展和广泛应用,各企业都拥有着大量的信息系统用于企业的信息化建设。但是由于各个信息系统所采用的底层实现技术和平台都不尽相同,导致了各信息系统之间
当今时代,高校数字化校园建设正在蓬勃发展中,它是教育信息化的关键步骤之一。国内各大高校依照自身的实际情况和建设目标都在不遗余力的进行数字化校园建设,众多高校展开了