基于GPU的快速稀疏深度神经网络推理方法研究

来源 :辛杰 | 被引量 : 0次 | 上传用户:qiyueliuhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的高速发展,深度神经网络模型的参数规模日益增大。研究人员使用剪枝等技术将权值矩阵裁剪,转化为稀疏深度神经网络,从而减少模型的存储成本和计算开销。另一方面,随着图形处理单元(Graphic Processing Unit,GPU)算力的不断提升以及GPU加速技术的快速创新,快速深度神经网络推理加速已经成熟。然而,由于稀疏深度神经网络的核心算子稀疏矩阵乘法(Sparse Matrix-Dense Matrix Multiplication,Sp MM)操作在GPU平台执行时其性能与稀疏矩阵的非零元素分布等数据特征息息相关,容易存在存在负载不均衡,内存随机访问等问题,因此不同的优化方法在不同的数据集上取得了不同的优化效果,没有一种优化手段可以在所有的数据集上都取得最优的性能。针对上述问题,提出了基于GPU的快速稀疏深度神经网络推理系统(Fast Sparse DNN Inference System,FSDI),将稀疏矩阵的非零元素分布等数据特征作为输入,利用面向核心算子的优化空间模型对优化空间进行搜索。具体来说,首先根据循环分块、循环并行、循环顺序调度、循环压缩等四个循环变换将Sp MM优化抽象为搜索空间,接着使用负载均衡情况以及访存代价作为优化空间内不同优化方法的性能评估模型,然后根据稀疏矩阵的特征得到合适的Sp MM优化方案,最后根据GPU架构的特性,使用针对优化空间进行裁剪的方法加速搜索过程。此外,针对多个算子间具有大量中间数据的问题,提出了稀疏性感知的算子融合机制,通过稀疏性分析将计算依赖关系较少的多个Sp MM操作进行融合,把中间结果存储在GPU的共享内存上,减少了对全局内存的访问开销。为了进一步增加可融合的算子量,使用了局部性感知的高融合度数据哈希方法,将非零元素重新排列,增加了稀疏矩阵的局部性。在由神经元数量为1024到65536个的全连接层组成的稀疏深度神经网络上进行了性能测试,结果表明在单个V100 GPU计算平台上,相较于当前性能最佳的H&P系统,性能提升了1.73倍到13.74倍。
其他文献
近年来,随着中国国际地位提升,汉语学习“低龄化”已经成为汉语发展的必然趋势;对“低龄化汉语教学”的研究,是未来学者与教师探索汉语教育事业的重要方向。目前对低龄学生汉语教学方法的研究主要集中在单一的教学方法上,对多种教学法的综合使用没用明确的讨论和分析。本研究者通过文献分析,选择了三种在低龄学生中受欢迎程度较高、易于汉语教师在课堂进行操作的教学方法,结合在教育机构的教学案例,对三种教学方法的使用顺序
学位
外国留学生在初级阶段学习汉字书写时,经常会写出带有错误笔形或增减笔画的汉字,从而导致汉字书写偏误现象的存在。前人对其原因做过不少的探究和偏误分析,发现如果学生在学习汉字书写初期,能够较好地掌握汉字笔画笔顺的书写规则,那么在一定程度上能够避免写错别字情况的出现。本篇论文以《国际中文教育中文水平等级标准》中的“初等手写汉字表”中的汉字为研究对象,以《通用规范汉字笔顺规范》为理论基础进行笔画笔顺教学的研
学位
乡村振兴战略目标是乡村全方位的振兴,文化振兴是其中的重要内容和基本要求。近年来,湖北省和襄阳市各级党委政府先后出台相关文件,将文化振兴作为乡村振兴五大任务目标之一作政策安排,形成了完整的乡村文化振兴政策体系,但实际政策效果并却不明显。乡村振兴战略本身是一系列政策工具的组合,从政策工具角度对其进行全面系统地分析研究,有助于发现政策体系在设计层面存在的结构性缺陷,解释政策目标偏离、执行乏力等现象,为政
学位
随着越来越多的西方科幻小说引进中国,科幻小说的翻译开始受到翻译界的关注。优秀的科幻小说译本不仅能给读者提供良好的阅读体验,还能让读者感受到源语言和文化的魅力。科幻小说翻译作为文学翻译的一个重要体裁,在翻译领域发挥着越来越重要的作用。本翻译实践报告以法国科幻小说家儒勒·凡尔纳的代表作《世界的主宰者》(The Master of the World)的英汉译本为研究文本,说明译者如何在翻译学家安德烈·
学位
在传统存储系统中引进新型非易失存储器(NVM,Non-volatile Memory)可以有效缓解存储墙问题,但由于NVM有非易失、耐久性差等迥异于传统内存器件的设备特性,可能被攻击者通过窃听、恶意写入、数据篡改等方式攻击,以NVM作为内存的持久内存系统面临巨大的数据安全威胁,因此需要针对数据安全问题构建安全持久内存系统。安全持久内存系统采用数据加密、完整性验证等技术手段,保障了内存数据的安全问题
学位
【目的】研究目的在于描述中国高校大学生社交媒体使用现状和网络欺凌行为的发生情况;考察社交媒体成瘾对大学生网络欺凌的影响,以及自我表露、感知匿名性等因素与网络欺凌的关系;识别社交媒体成瘾对网络欺凌行为的影响机制;并据此为大学生网络欺凌预防与干预项目的建设提出建议与对策。【方法】所运用的测量工具基于对以往研究中经过可靠性验证的量表的修改调整而成。数据资料来源于网络问卷调查,通过滚雪球式的方法调查大学生
学位
得益于三维堆叠、多级存储单元等技术的进步,闪存存储密度快速提升,基于四级存储单元闪存的固态盘(Quad-Level Cell Solid State Drive,QLC SSD)成为主流存储设备之一。然而,一方面I/O负载的多样性和复杂性导致盘内缓存效率低下;另一方面QLC闪存容量的提升带来了闪存页间差异、读写性能差异加剧和寿命衰减等问题,导致QLC SSD无法满足应用的需求。结合I/O负载特征和
学位
随着信息技术的飞速发展,传统计算机面临着冯·诺依曼瓶颈和晶体管微缩物理极限问题,越来越难以满足日益增长的数据处理需求。尤其,在非结构数据的处理中,硬件类脑计算系统可实现数据的高效并行处理,是目前研究的热点。在类脑计算系统中,最耗计算资源的矩阵乘法运算,可通过大规模存储器交叉阵列(Crossbar)来加速。因此,构建大规模存储器交叉阵列是实现类脑计算系统的硬件基础。值得注意的是,随着存储器阵列规模和
学位
量化投资源于国外,伴随着金融全球化以及我国计算机与互联网技术的发展,国内的量化投资起步虽晚却发展迅速。量化投资的核心就是量化投资策略的搭建,如今的金融市场形式复杂多变,对已有量化策略的有效性提出了新的挑战,投资者如何利用量化投资追逐利润和有效控制风险也成了国内外研究的热点。MACD策略是国内投资者普遍使用的策略之一,其关键就是利用近期资产价格计算出快线、慢线指标,根据指标形态对未来做出预判。MAC
学位
新型非易失内存(Non-volatile Memory,NVM)具有字节寻址以及断电不丢失数据的特性,处理器可以通过加载和访问指令直接访问NVM,程序员借助这些特性可以在NVM中直接构建数据结构而不需要使用序列化操作。然而传统的文件系统并不能支持以字节粒度对NVM进行写入操作,因此需要构建一种细粒度的NVM空间管理方式。动态随机存取存储器(Dynamic Random Access Memory,
学位