面向神经网络应用的软硬件协同加速方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:yangzhibo0508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
受摩尔定律的影响,计算机系统的存储和计算能力在过去几十年里经历了跨越式的提升,从而为大数据和人工智能的发展提供了肥沃的土壤。特别是近年来,神经网络的快速发展及其在计算机视觉、自然语言处理、社交网络、知识图谱等领域的成功应用,真正推动了人工智能时代的繁荣,使人类的生产生活变得愈加高效便捷。随着神经网络的应用领域愈发广阔,神经网络模型变得越来越庞杂,处理的数据类型也从欧几里得图像和视频数据向非欧几里得图数据结构扩展。同时,随着制程工艺逼近物理极限,芯片的计算和存储能力的提升速度也在逐渐放缓。在后摩尔时代背景下,新兴神经网络应用对计算和存储能力需求的增长速度已经超过了计算芯片和存储芯片的发展速度。因此,新兴神经网络应用在传统计算机硬件系统上的计算和访存瓶颈愈加严重,导致应用在硬件平台上运行效率低下,限制了应用的实际部署范围。本文针对新兴神经网络在计算和存储方面的新挑战以及不同应用场景下的部署需求,分别从基于现场可编程门阵列(Field-Programmable Gate Array,FPGA)的硬件平台解决欧式空间的三维卷积神经网络(Three Dimensional Convolutional Neural Network,3D CNN)和非欧空间的图神经网络(Graph Neural Network,GNN)的加速需求,以及基于新兴的近内存计算(Near-Memory Processing,NMP)架构解决图神经网络应用在大规模数据集上的存储瓶颈三个方面开展研究工作。本文采用软硬件协同加速的方法,从神经网络算法执行优化、硬件加速架构创新设计、软硬件系统耦合优化等多个层面进行系统性地研究,提高了系统的计算和访存效率,从而实现了高能效的神经网络推理加速。本文的主要研究工作和创新点包括:(1)本文提出了一种基于FPGA的三维卷积神经网络加速器——3D-NPU(Neu-ral Processing Unit,神经处理单元),采用软硬件协同加速的方法,探索了不同优化目标下的设计空间,实现了业界领先的性能和计算单元利用率。在软件层面,本文针对三维卷积神经网络的访存和计算特征,提出了粗粒度的数据分块方法和多种循环排序策略。在硬件层面,3D-NPU采用可扩展的计算单元阵列和可重构的片上缓存设计,实现了不同的循环排序策略,具备高度的灵活性、并行性和扩展性。在系统层面,本文提出了在不同优化目标下的设计空间探索方法,实现了每一层最优的循环排序策略。实验表明:相比基准模型,3D-NPU在最优的循环排序策略下可以减少84%的片外访存量和55%的能量消耗,并且在保证通用性的同时实现了同期最高的性能和计算效率。(2)本文提出了一种基于FPGA的图神经网络加速器——FP-GNN,采用软硬件协同加速的方法,实现了高灵活性且高能效的图神经网络加速。在软件层面,本文定量分析了图神经网络算法的执行顺序对性能的影响,并针对大规模图神经网络数据集处理需求提出了一种自适应层次化图数据划分方法,提高了存储子系统的效率并消除了层间重新划分图数据的开销。在硬件层面,FP-GNN采用统一的计算架构设计,实现了灵活的执行顺序和高效的片上资源利用。在系统层面,本文从图数据存取、负载均衡、稀疏性消除、混合执行等角度来优化存储和计算系统的效率。实验表明:FP-GNN在多种图神经网络模型和数据集上的平均性能达到了 GPU(Graphic Processing Unit,图形处理器)的24.9倍,能效比是GPU的138倍,并且相比业界最佳的硬件加速器实现了更高的吞吐效率和能效比。(3)本文提出了一种基于双列直插式存储模块(Dual In-line Memory Module,DIMM)的近内存计算加速器——G-NMP,针对图神经网络进行软硬件耦合设计和优化,实现了实用且高效的近内存计算加速。在软件层面,本文通过对多种图神经网络算法提取细粒度的基本算子,降低了近内存计算架构的设计复杂度。在硬件层面,G-NMP采用统一的计算模块来实现灵活的数据流,并利用秩级并行性来提高并行访存带宽。在系统层面,本文为G-NMP 设计了一套指令集——G-ISA(Instruction Set Architecture,指令集架构),实现了图神经网络算法的高效部署。同时,本文提出了自适应数据分配策略和累加模式优化方法,提高了 G-NMP的访存和计算效率。此外,本文还提出了一种CPU与G-NMP加速器之间的通信策略,实现了低开销的内存控制权切换。实验表明:在相同的内存配置下,G-NMP加速器的平均性能达到了业界最佳方案的1.73倍,能效比分别达到了 CPU的31.6倍和GPU的1.78倍。
其他文献
伴随着科技和时代的不断进步与发展,企业与企业之间正处在一个极大的竞争环境中,产品和价格已经不再是决定一个企业成败与否的关键因素,对于许多跨国企业而言,企业要想在竞争激烈的社会环境中取得优势并获利,客户关系对企业起了至关重要的作用。本文以S公司作为研究对象,它是一家在中国设立的专业生产汽车维修工具的美国集团公司,主要的客户群体是该集团在各国(地区)设立的子公司并作为内部客户来维护。随着这两年全球疫情
在特定的外部刺激下,具有变构功能的DNA分子器件可以在不同构象之间进行切换,改变其形状特征,重排空间构象甚至提升性能。近年来,适配体、三链体、G-四链体和i-motif等功能核酸已经成为刺激响应型DNA器件的变构元件,特别是它们对内源性ATP、pH和K+等刺激物特异性响应的特征使它们成为活细胞成像、细胞逻辑计算、药物靶向递送和分子医学等领域的强大工具。但利用DNA构建刺激响应型的分子器件仍有问题需
热固性树脂是一种可以实现三维交联并具有稳定分子网络结构的聚合物。热固性树脂具有优异的机械性能、突出的耐温性能和丰富的可加工特性等优点,因而在工业化生产过程中获得了广泛的应用。热固性树脂基多孔材料,简称热固性多孔材料,以其独特的孔道结构带来的新颖物理化学性质,在工业建筑、能源存储与转化、传感器和生物医疗等领域展现出了广阔的应用前景。伴随着高分子科学和纳米科学的迅速发展,各种热固性多孔材料不断涌现,造
超大规模神经元集群的结构重建与形态分析是脑科学领域里的重要研究课题,在计算神经生物学中有着广泛应用。神经元形态是神经元活动、神经可塑性和神经连通性的关键性决定因素,被认为与神经元的生理特性和神经功能密切相关。随着光学显微成像技术的发展,从超大规模脑图像中重建出超大规模神经元集群并对这些神经元形态数据进行分析,对于研究神经系统机理有着至关重要的作用,并对老年痴呆症和阿尔茨海默病等脑神经相关疾病的研究
卤化铅钙钛矿材料具有带隙连续可调、消光系数高以及缺陷容忍度高等优异性质。经过十余年的快速发展,以这种材料为核心的钙钛矿太阳能电池(Perovskite Solar Cells,PSCs)的实验室转换效率已经突破25%,部分性能指标可与传统硅基和薄膜光伏电池相媲美,极具发展潜力。现有卤化铅钙钛矿薄膜制备以低温液相合成为基础,这种工艺流程简单,但所制备的薄膜内部通常存在大量缺陷,导致薄膜内易发生离子迁
随着电磁波技术的应用和发展,人类生存空间的电磁环境日益恶化。微波吸收与屏蔽材料对避免电磁干扰、保护人员安全、提高设备可靠性、确保网络系统的安全畅通有重要意义。新型的三元层状过渡金属碳/氮化合物MAX相由于其独特的层状结构和键合特点使其兼具金属与陶瓷的优异性能,如较高的强度和模量,良好的导热与导电性、抗氧化、耐腐蚀、化学稳定性,以及可加工性等。作为一种新型的微波吸收与屏蔽材料有广阔的应用前景,并且已
远距离量子纠缠的分发是目前量子通信所面临的主要挑战之一,它的实现对构建全球化的量子网络来说至关重要。光子是我们最常用的编码量子信息的载体,但是光子在光纤中不可避免的损耗使得纠缠分发难以在数百公里以外的距离上实现。幸运的是,量子中继方案提供了一种在远距离节点之间建立纠缠的手段,为构建量子网络开辟了道路。其基本原理是:远距离的量子通信链路被切分成数个短距离的基本链路,首先建立基本链路内节点的纠缠,然后
杂环化合物,尤其是具有刚性骨架的含氮杂环化合物,广泛存在于天然产物及药物分子中,在生命科学、合成化学和材料科学等领域发挥着重要作用。因此,化学家们对杂环化合物的构筑给予了高度关注,并发展了多种合成方法。然而,这些方法仍存在着一定的局限性,因此开发高步骤经济性和高原子经济性的杂环化合物的合成方法具有重要的意义和价值。共轭二烯作为一类简单易得的有机合成原料,被广泛应用于过渡金属催化或有机小分子催化的环
出于临床医学上一些重要疾病指征的精确测量需求,医学超声快速成像技术得益于其高效的成像速度,相关研究得到了有效推进,在该过程中也进一步提高了对超声快速成像质量的要求,主要集中在近场的图像分辨率及成像算法带来的伪影优化等方面,其根本原因在于超声阵列式换能器的结构带来的实际声场与理论声场的误差。为了从根源上对超声快速成像质量有所改善,本论文从超声探头设计与成像应用角度入手,主要开展了以下工作:一、提出了
近年来,高能量密度的锂离子电池发生了许多火灾和爆炸事故,引发了全社会对其安全性的广泛关注。隔膜是锂离子电池中的重要组成部分,对于保证锂离子电池安全高效运行具有重要意义。目前,聚烯烃隔膜因其卓越的机械性能和低廉的价格占据了隔膜产业大部分的市场份额。但聚烯烃隔膜电解质润湿性不佳、热稳定性差,在锂离子电池受热时可能导致电池内短路,甚至导致热失控(TR)事故。因此,锂离子电池的安全需求对隔膜的热稳定性提出