基于FPGA的神经网络加速器运算与访存优化设计

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:terzaghi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度神经网络(DNN)可以有效地从海量复杂数据中提取重要的信息,已被广泛应用于图像识别、语音识别及自然语言处理等领域。但这些神经网络使用时会带来较大的计算和内存开销,限制了在资源有限场景下的使用。传统的CPU与GPU处理器,由于其硬件架构中计算与内存单元的容量限制,无法满足很多应用场景对DNN算法的高性能与低能耗的要求。因此,研究者们提出在现场可编程逻辑门阵列(FPGA)上设计适应神经网络算法的硬件结构。目前,有很多使用FPGA加速DNN算法的研究工作,但是多数研究工作只是把神经网络算法简单地放在FPGA上应用。而很少有研究者通过结合FPGA的可编程特性与DNN中权重数据和输入数据的特点,将算法和硬件结构进行融合来做整体的性能优化。本文集中于在FPGA架构上设计特定的DNN加速算法,论文的主要工作如下:本文主要针对现有加速器存在的巨大数据传输量与计算量的问题,通过分析输入数据的特点与权重数据的物理意义,提出了CSCF策略对输入数据进行压缩,设计了基于通道组的计算(CGBC)算法减少卷积计算量,以此在保证精度的同时对内存与计算资源进行性能优化。本文首先针对海量输入数据设计一种CSCF预处理策略,压缩输入数据量。我们首先对采集到的数据进行扫描与压缩,并根据连续0值像素块的位置对压缩后的数据分类存储。我们在FPGA架构上设计了与存储单元对应的分类计算单元,通过融合卷积神经网络的首层卷积计算和输入数据的压缩存储,提高模型性能。此外,为减少DNN模型的计算量,我们确定了一种新的将乘法转换为判断计算(CMJC)算法。该算法可以将每个乘法转换为仅一个判断。由于现有CMJC算法通常输出精度较低,因此我们提出了一种新的CMJC算法,称为基于通道组的计算(CGBC)算法,该算法将每个卷积核的通道组作为最小计算单元,而不是对整个卷积核提取公共量化因子,从而保持权重的特征,可以获得非常好的精度。为支持CMJC算法,我们设计了基于FPGA架构的减少乘法(RM)加速器,该加速器实现了一种针对CGBC算法的预测机制,减少了计算量。实验结果表明,与传统神经网络加速器相比,CSCF算法能取得1.8至2.1倍的加速比,且硬件资源利用率波动较小,CGBC-RM加速器的加速比提高了2.0至2.4倍,能效提高了7.1至8.1倍,并保持了与传统算法非常相似的输出精度。
其他文献
卫星图像中城市高层建筑街区形态的自动分析对城市规划和研究的自动化起着重要作用。高层建筑街区形态一般包括居民区建筑群落和商业区建筑群落。本课题的主要研究包括两个方面,一是高层建筑街区,即高层建筑群落的自动检测与分类,二是高层建筑高度参数的预测。由于目前做该研究的较少,因此,本课题的所有数据均由本人标注,并通过专家审核。之前对光学卫星图像中高层建筑的检测还依赖于人工。本课题假设高层建筑群落可以作为一个
学位
预焙阳极的质量对铝电解有重要意义,而阳极生产是个十分复杂的工业过程,其中会有大量数据伴随产生,通过研究和分析这些数据可以深入挖掘潜在价值。在铝电解预焙阳极生产过程中,生阳极体积密度是反映预焙阳极质量的重要指标,通过生阳极生产的工艺控制参数预测生阳极体积密度,对保证阳极的质量具有重要意义,预测的结果也能为相关人员调整工艺参数提供参考依据。本文主要完成了以下工作:1.本文针对生阳极生产过程的非线性特点
学位
作为解决现代互联网信息过载的有效工具,推荐系统能为广大用户提供个性精准的信息来源和决策依据,正在融入越来越多人的日常生活。数据稀疏是目前推荐系统面临的主要问题之一。在深度学习得到飞速发展的今天,对特征的高效提取和有效融合是一个值得深入的研究方向,这为缓解数据稀疏问题提供了有力支持。本文旨在研究如何将深度学习的非线性建模能力与传统推荐算法的线性建模能力相融合,由此使得算法兼备线性模型的快速搜索能力和
学位
本文基于“教—学—评”一体化的教育理念,全面解析义务教育语文课程“语言运用”核心素养的学习目标、测评趋势以及教学方向。首先,通过梳理义务教育语文课程标准与统编初中语文教材中“语言运用”核心素养的课程目标与内容要求,明确该素养的学习目标是理解语言文字,发展语用能力。其次,通过分析近五年来语言积累与运用评价的中考测试,总结出“语言运用”核心素养测评“设置语言实践活动,考查学生语言积累与运用真实过程”的
期刊
会话问答即多轮问答任务,是对话式人工智能的重要组成部分。给定一篇文章和相应的一段对话,会话问答任务需要回答对话中的下一个问题。使整个对话更加流畅连贯。会话问答任务的机器学习模型不仅需要考虑当前的问题,而且还需要结合上下文对话历史信息。但是由于上下文篇幅较长,如何对复杂的信息进行高效特征提取,一直是会话问答任务的重大难题。现有的方法通常会对其经过多层LSTM处理,将特征向量进行拼接,很容易产生冗余信
学位
光谱响应函数作为卫星传感器里一个重要的参数,体现了各个光学元件的反射和透射特性,还包含了传感器的光谱响应特性的综合性能,更是决定了传感器对辐射的光谱响应特性,直接影响着传感器的定标精度和定量应用能力。气象卫星传感器发射前在地面实验室通过光谱校准获得的光谱响应函数是不准确的,而且在太空中运行的过程中光谱响应函数会以未知的方式发生退化,这两种现象都会严重影响卫星辐射定标工作的精准完成。这就需要提出一种
学位
大数据时代,许多领域需要利用机器学习技术进行数据分析。但是机器学习模型构建过程复杂且耗时,如果不具备专业机器学习知识的领域专家可以根据业务需求自行构建模型,可以降低机器学习的使用门槛,提高工作效率。目前,已有很多研究提供可视化流程建模工具,建模人员可通过组合数据分析相关服务构造数据分析流程。进而,AutoML(Automated Machine Learning)工具还可根据数据及任务,自动化组合
学位
在线新闻服务平台如今日头条、微软新闻等已成为广大用户获取新闻信息的主要来源。网上每天生成和发布了海量的新闻文章,导致用户很难快速找到感兴趣的新闻。然而个性化新闻推荐可以帮助用户缓解信息过载,提升新闻阅读体验,因此在众多网络新闻平台中得到广泛应用。新闻推荐中两个关键点分别为新闻文章表示和用户兴趣建模。对于新闻文本的表示,本文采用改进过的transformer模型并融合新闻类别信息去学习得到新闻文章表
学位
推荐系统和聚类是两种应用广泛的数据挖掘技术。推荐系统可以帮助用户高效、有效地获取有用的在线资源,聚类技术能够降低数据的高维度和稀疏度,尽可能地将相似的对象聚类在一起,将不同的对象分开。近年来,在进行推荐之前,将具有相似特征的用户或者项目进行分组已经成为一种趋势,以此提高推荐质量。本文分别从优化常见聚类的缺点和消除聚类的关键性参数角度提出了聚类与推荐算法结合的思路,即基于聚类和模拟退火的协同过滤算法
学位
氧化铝高温溶出工序是氧化铝生产中重要的组成环节,具有多种因素相互作用的特点,其中溶出温度是影响溶出质量最重要的工艺指标,仅依赖生产人员难以对溶出温度做到精准决策控制。通过对氧化铝企业溶出环节实际工艺流程的研究和对大量的历史数据进行分析,本文采用深度强化学习算法对氧化铝溶出环节的溶出温度进行决策,从而提高溶出质量。(1)对企业提供的溶出环节相关原始生产数据进行缺失值、异常值处理和可视化分析,并使用X
学位