CNN处理器微架构研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:qq8520963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着神经网络算法的不断发展和突破,神经网络算法越来越广泛的被应用在图像识别,自动驾驶,语音识别等诸多领域。卷积神经网络是从人工神经网络中派生出来的一种神经网络,它非常适合于图像的平移,比例的缩放等形式的图像变化操作。一方面,在卷积神经网络前向推理计算过程中,存在着复杂计算和高带宽访存的问题,使用通用处理器平台实现深层卷积神经网络前向推理计算过程的方法,无法保证提供足够的计算能力。另一方面,尽管使用图形处理器平台实现深层卷积神经网络前向推理计算过程的方法,可以解决深层卷积神经网络前向推理计算过程中,高带宽访存和复杂计算的问题。但使用图形处理器平台无法满足移动设备等低能耗需求场景的要求。因此,对于深层卷积神经网络前向推理计算的实现需要一种专用的硬件加速系统,既能提供足够的计算能力,又能满足低功耗的需求。FPGA作为一种可编程的逻辑器件,具有丰富的计算资源,灵活的重配置特性,相比专用芯片开发而言开发周期较短等优点,十分适合用来开发和验证,针对卷积神经网络设计的特定硬件架构。本文首先分析卷积神经网络推理计算的过程,分别针对卷积神经网络中的卷积运算层,池化运算层,全连接运算层进行并行计算特性分析,探究各运算层中所具有的并行计算结构。然后,以对卷积神经网络计算并行性分析的结果为理论基础,分别针对卷积运算层,池化运算层和全连接运算层提出了一种新的计算算法,并将其分别与传统的卷积运算算法,池化运算算法,全连接运算算法进行理论分析对比。之后,根据本文针对卷积运算层,池化运算层和全连接运算层提出的计算算法,设计了卷积运算模块电路结构和池化运算模块电路结构,提出了一种实现全连接运算层转化为卷积运算层,复用卷积运算模块电路结构的方法。最后,实验结果表明本文设计的卷积神经网络加速系统实现的最高时钟频率为114.94MHz,功耗为1.873W,数值表示方式为十六位定点补码。本文设计的卷积神经网络硬件加速系统执行VGG16卷积神经网络时能提供31.14GOPS的平均动态算力。在本文设计的加速系统上执行一次VGG16卷积神经网络模型前向推理计算的时间为0.49768秒,相比英伟达的特斯拉K40M型号的图形处理器在速度上慢了22倍,但在能耗上少了5.58倍。在本文设计的加速系统上执行一次AlexNet卷积神经网络模型前向推理计算的时间为0.06915秒,相比英伟达的特斯拉K40M型号的图形状处理器在速度上慢了4倍,但在能耗上少了30倍。
其他文献
近年来,基于探针的全局光照算法因其简单高效的特点被广泛应用于实时渲染应用中,如虚拟现实、游戏以及CAD辅助设计等。其基本思想是,通过在场景中离散放置探针对光照信息进行预计算,然后在运行时查询着色点附近若干个探针存储的光照信息进行插值计算而生成全局光照效果。然而,该类算法依赖于逐探针预计算光照信息,导致其难以实时响应动态光照变化。其中,光场探针算法能够生成高质量的间接漫反射和光泽反射效果,但需要逐探
随着科技的不断进步,人们的生活也开始步入智能时代。在交通出行方面,与我们最密切相关的就是辅助驾驶和自动驾驶技术。这些技术不仅能够提高我们的出行效率,也能够保障我们的出行安全。因此,对智能交通技术进行研究有着十分重要的意义和应用价值。在道路交通系统中,交通标志是重要的组成部分。不论是辅助驾驶还是自动驾驶,都必须要解决好交通标志检测的问题。但是在实际应用过程中,由于交通标志主要存在于室外,环境较为复杂
随着空中作战在现代战争中占据越来越重要的地位,空战决策方法的研究所具备的现实意义也显得尤为突出。由于空中作战态势复杂多变,如何快速感知战场环境并生成一种有利且准确有效的空战策略成为了空战博弈的重要研究方向。在空战决策方法的研究进程中,有诸如专家系统、影响图、矩阵博弈和微分对策等方法的研究进展,但此类传统方法存在适应性较差、计算复杂、难以满足实时性等问题。随着近年来深度强化学习技术的兴起与发展,其在
近年来,恶意代码分析一直都是中国网络安全领域研究的重要课题之一。其中高级可持续威胁攻击(Advanced Persistent Threat,APT)是一种特定的恶意代码入侵方式,它通过扫描探测系统漏洞,对靶机投放恶意漏洞利用脚本,再植入二进制恶意程序,达到感染主机的目的。研究恶意代码功能分类模型能进一步分析出恶意代码的功能行为信息,从而有效地提升APT防御技术,保护网络安全。但近年来分类恶意代码
随着美国成功勘探及开发出页岩气,世界各国都兴起了一股研究页岩气的热潮。我国地质资源丰富,但地形条件复杂,不同地域的构造演化、沉积环境以及热演化过程都不相同,使得页岩气的形成过程和富集程度存在较大差异,所以勘探技术仍是页岩气开发过程中的关键因素。通过使用图像分割技术对深层页岩SEM图像进行分割处理,进而为勘探人员提供辅佐信息,有助于提高勘探效率。为了提升分割精度,本文对深层页岩SEM图像分割进行了深
近年来,随着计算机性能的提升和深度学习的迅速发展,计算机视觉领域迎来了蓬勃发展。头部姿态估计作为基于生物特征的计算机视觉领域的一个分支,是众多学者的一个研究方向。头部姿态估计是指从二维人像图中推断出人在三维空间中的头部朝向的过程。这个课题在很多领域都具有广泛的应用场景,例如驾驶员监测系统、虚拟现实、安防监控系统、学生课堂注意力估计等等。目前,头部姿态估计仍然面临着诸多挑战,例如精度较低、模型泛化能
白内障是致使视力受到损害的主要原因,也是导致失明的严重眼科疾病之一,且白内障疾病发病率较高。但在偏远地区,基层医疗机构的专业眼科人才极度缺乏,无法诊断各类眼科疾病。运用人工智能的方式辅助医生检测白内障,搭建远程白内障超声影像诊断系统,能够有效缓解因诊断不及时,就医困难等原因引发的严重后果。近年来,基于深度学习(Deep Learning,DL)方法的自动化系统显著提高了白内障的检测。然而,白内障自
近年来,随着互联网和移动终端的迅速发展,各大互联网公司为抢占有限的用户资源,推销自己产品和服务,纷纷采用各种推荐算法进行信息或物品推荐。序列推荐算法作为推荐算法领域的子领域,在电商购物平台应用尤其广泛。序列推荐算法的主要任务是通过用户与平台的交互序列,得到当前序列偏好,进而预测用户下一次可能交互的物品,提供给用户合适的推荐列表。当前,研究人员开始将门控图神经网络应用于序列推荐当中,但是现有研究工作
BP神经网络(BPNN)被广泛称为现阶段最受欢迎的神经网络之一,它是一种监督式学习的网络[1]。BPNN通过学习训练样本输入和输出的关系进行建模,它对网络权重进行连续调整,以达到减小预测值和真实值差异的作用。它只需要较少的计算和训练,就能隐式检测因变量和自变量间的关联[2],从而计算变量间的复杂关系,对不可见数据进行良好的泛化和预测。但随着大规模数据集在各行业的出现,BPNN逐渐暴露出缺陷与不足,
意图识别任务本质上属于自然语言处理中的文本分类任务。意图识别任务按场景可分为口语意图识别和文本意图识别。口语意图识别使用语音识别输出的文本作为输入,因此口语意图识别的准确率会受到语音识别准确率的影响。通常,语音识别的准确率会受到环境噪声的影响,一般采用语音增强和语音降噪可以解决大部分问题。然而说话人口语表述方式的多样性以及每个人发音的独特性使得语音识别系统的识别内容距离用户的真实表述内容还存在一定