面向大数据处理的异构融合可重构数据流加速器研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:A88851258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能技术迅猛发展,在全球范围内受到了广泛关注。以卷积经网络(Convolutional Neural Networks)、图卷积神经网络(Graph Convolutional Neural Networks)为代表的深度学习算法的不断更新迭代对计算机系统的计算性能与能耗要求急剧提高。然而,由于近年来摩尔定律发展的停滞以及冯诺伊曼结构限制,现有的数据中心架构无法高效地实现深度学习与大数据相结合的应用加速。以FPGA为代表的定制化硬件为解决上述问题提供了新思路,一方面,FPGA特有的可重构特性使其能够适应算法的快速发展变化,克服了ASIC解决方案对新兴算法适应性差的的问题;另一方面,FPGA在加速深度学习算法体现出的高能效特性也让其备受研究人员的青睐。随着国内外各大科技公司纷纷在数据中心部署FPGA设备构建异构计算加速集群,CPU+FPGA体系结构在处理大数据应用方面的优势逐渐得到肯定,CPU+FPGA异构计算体现出非常好的发展前景。本文基于CPU-多FPGA异构融合体系结构,面向深度学习与大数据相结合的典型应用,围绕加速器体系结构、算法到硬件映射方案、数据流加速器、性能模型、分布式加速方案等关键技术进行分析研究。本文的研究内容及创新点如下:·研究三维卷积神经网络的FPGA加速技术。本文提出了一种面向二维/三维卷积神经网络加速的模板化体系结构和设计方法。首先,为了减少卷积神经网络的算法复杂度,我们对Winograd快速算法进行扩展使其能运用到三维卷积神经网络中。其次,我们从二维/三维卷积神经网络中抽取了公共算子,并基于此设计了一系列可重构计算模板。最后,我们采用高层次综合语言对计算模板进行实现,并基于这些计算模板构建了加速引擎,实现了模板化加速器的快速生成。由于二维、三维卷积神经网络算法复杂度的差异,先前的工作针对二维卷积神经网络加速器提出的设计空间探索方法对于三维卷积神经网络加速器可能不再适用。针对该问题,我们提出了一种统一的性能分析模型,实现了对二维/三维卷积神经网络加速器的设计空间探索并给出了最优设计参数的搜索方法。实验结果表明针对VGG和C3D网络,我们的加速器在较低的计算资源开销下获得了与目前先进的神经网络加速器相当的性能。在计算吞吐方面,C3D网络加速器获得了13倍于CPU的性能提升;在计算能效方面,C3D网络加速器相对于CPU和GPU分别获得了60倍和30倍的提升。·研究完整的二维/三维卷积神经网络到FPGA硬件的映射方案。本文提出了一种将完整的二维/三维卷积神经网络高效映射到流水化多加速器结构的方案。为了解决网络层规模差异而导致加速器计算效率降低的问题,我们在第一项研究内容的基础上进一步提出了一种流水化多加速器方案,该方案最主要的特点是将所有的层间数据存于片上,从而增加了层间数据复用率,有效降低了片外访存开销,与之前的工作相比,我们进一步提升了加速器的吞吐和效能。为了降低层间数据的片上存储开销,我们首先提出了一种层融合确定算法,通过改变融合层(相邻的两个卷积层)中的循环顺序,实现了层间分块数据的有效利用。其次,为了实现网络层到多个加速器的高效映射,我们基于K-means聚类思想提出了一种层聚类方法,将分块参数接近的网络层进行聚类并映射到同一个加速器。此外,为了解决加速器之间的负载不均衡状况,我们还提出了一种简单而高效的负载均衡调度,进一步提升加速器整体的计算效率。实验结果表明,相比于之前提出的加速器方案,本文提出的流水化多加速器方案获得了最高2.3倍性能提升,在计算效能方面,我们相比于CPU、GPU分别提升了64倍和5倍。·研究以三维卷积神经网络为核心的医疗影像识别应用的并行加速方案。深度学习算法已成功运用到医疗影像分析应用中,然而,应用性能提升的同时,其算法的计算、存储开销也不可避免地增加,导致了应用处理延迟开销的增大。为了解决上述问题,我们以基于三维卷积神经网络的肺结节检测应用为例展开研究,提出了一套基于CPU-多FPGA异构计算平台的肺结节检测加速方案。我们首先对算法并行性进行了深入的分析,提取了核心计算负载——两种三维卷积神经网络:LNS-net和LNC-net,并针对两种网络的不同特征,分别提出了“模型并行”以及“数据并行”的映射方案。其次,我们在第二章提出的三维卷积神经网络加速器基础上进行了改进,节省了硬件资源,提高加速器资源利用率。此外,我们在FPGA节点间设计了两种互连类型——常规通路和快速通路:满足了算法映射方案对FPGA节点间通信的需求。最后,我们采用依托项目开发的定制FPGA加速板卡进行测试,实验结果表明,本文提出的异构系统具有良好的扩展性,并且面向LNS-net和LNC-net的加速方案都获得了高于CPU、GPU的计算吞吐和能效比。与此同时,系统还达到了世界先进水平检测精度。·研究面向深度图卷积神经网络的并行加速方案。我们提出了一种面向深度图卷积神经网络的分布式并行加速方案。我们选取了一个典型的深度图卷积神经网络算法——DAGCN作为主要研究对象,从算法的计算特征、稀疏性等方面对其进行了分析,并通过实验验证了网络层精度与网络深度之间存在正相关关系。我们提出了一种高效的网络映射方案,CPU负责网络层结果的聚合操作,而FPGA则对主要的计算负载——图卷积层进行加速。与前面提到的流水化并行加速方案类似,我们在每个FPGA节点内实现了多个图卷积层加速引擎,以实现多个图卷积层的并行加速。我们将所有节点内的加速引擎组织成横跨所有FPGA节点的长流水线,旨在提高FPGA节点的计算吞吐。为了找到最优设计参数,实现加速器性能最大化,我们建立了数学模型评估加速器的性能与FPGA资源开销。实验结果表明,我们在六加速节点配置下可达到2.6 TFLOPS的实测性能;我们与当前最先进的基于FPGA的图卷积神经网络加速器工作进行对比,进一步表明了我们的加速器方案在计算吞吐和计算效率方面都达到了先进的水平。
其他文献
近年来,深度学习算法已经成为机器学习领域应用的主流模型,其中,卷积神经网络和循环神经网络在图像、视频、声音、文本等各种数据对象的智能分类、检测、识别应用中效果尤其突出,已经成为最主要的两类深度神经网络模型。随着精确感知和高精度识别任务需求的不断增长,大量智能应用在采用这两类深度网络模型时均使用层数更深的结构,需要高算力专用硬件的支持,这两大类深度学习网络的加速技术一直是研究的热点问题。同时,针对不
通信技术和传感器技术的发展让智能移动终端拥有越来越强大的计算、感知、存储和通信能力,随着这些智能移动终端设备的爆炸式普及,移动群智感知(Mobile Crowdsensing,MCS)作为一种新兴的感知模式应运而生,它将众包思想与移动感知相结合,通过大量智能移动终端的不断移动和广泛参与完成大规模复杂感知。与传统的传感器网络相比,MCS具有部署成本更低、系统构建更加快捷、维护更容易、更具有可扩展性、
装备技术体系是武器装备体系在技术视角下的延伸,是装备技术整体规划的重要理论基础。装备技术体系的理论研究必须以钱学森的系统科学思想为指导,对装备技术体系的战略探讨、生成方法、结构建模、体系评估以及发展预测等方面进行研究。现有研究的主要问题包括:第一,虽然以德尔菲为代表的专家法取得了广泛的应用,但存在论证周期长、成本高、覆盖不全等缺陷;第二,虽然多视图体系结构框架设计了完备的视图产品和元模型,却没有给
同步定位与建图(Simultaneous Localization and Mapping,SLAM)是指机器人在未知环境中移动时利用所搭载传感器的观测数据进行场景地图构建,并同时估计机器人在地图中的位置及运动轨迹。随着低成本三维视觉传感器(RGB-D相机)技术的成熟,三维视觉SLAM技术成为机器人领域和计算机三维视觉领域中新的研究方向。本文以实际应用需求为牵引,利用RGB-D相机可同时采集彩色图
随着大数据和硬件计算资源的发展,人工智能当前进入了深度学习时代,深度学习时代具有两个最为显著的特点:一是计算量大,二是在多个应用领域效果远超传统方法。传统的人工智能方法虽然计算量相对较少,但是其性能遇到了天花板,很难进一步提高,而目前来看深度学习只要数据量足够,通过合理的网络设计以及足够的计算其在性能上往往都具有非常高的潜力。为了获得足够的深度学习计算加速,当前展开了各种硬件竞赛,比如GPU上针对
机器学习作为人工智能技术的核心支撑受到了广泛的关注。数据规模不断增长,对最优化方法求解机器学习模型带来了新的挑战。本文以提高随机最优化方法在大数据条件下的收敛速度和精度为目标,针对随机梯度降噪算法计算效率低、自适应梯度方法泛化能力低、随机拟牛顿方法收敛速度慢、基于随机梯度下降的Lookahead方法调参要求高等问题,从随机梯度下降算法的弹性降噪、自适应梯度方法的边界调度、随机拟牛顿方法的降噪加速、
随着近年来国内外多条商业运营线路的开通,磁浮列车逐渐成为轨道交通领域研究和发展的热点和焦点。高速磁浮列车作为一种新型轨道交通制式,对于解决大城市间的快速交通问题,建立和完善我国高效立体的高速客运体系具有重要意义。本文以时速600公里高速磁浮列车悬浮系统为研究对象,对悬浮系统的性能优化问题展开研究。论文针对高速磁浮列车悬浮搭接结构建立数学模型,并根据模型特性设计标称控制器。由于高速磁浮列车长期运行过
计算机生成兵力(Computer Generated Forces,CGF)是作战仿真领域的关键前沿技术之一。意图识别行为是CGF认知行为建模的重要研究方向,可有效解决现有模拟仿真系统中CGF行为模式固定可预测、对抗与协同能力不足、态势分析与处理水平低等问题。策略型意图识别行为建模是考虑战场竞合关系条件下,对一般意图识别行为的泛化研究,有助于CGF更富策略性地识别敌友作战意图。研究面向CGF的策略
动态目标防御技术是一种新型的网络安全技术,通过构建、评价和部署多样化、不断迁移并且随时间变化的机制及策略的方式,增加攻击者的攻击难度及代价,有效限制脆弱性的暴露及被攻击的机会,提高系统的弹性。本文结合新一代网络架构SDN直接灵活、集中式的网络控制能力优势,对动态目标防御网络的相关关键技术进行了深入研究,主要研究工作及创新点如下:对于基于SDN的路由随机变换技术,本文分析了路由随机变换的相关问题,从
随着人们对互联网的依赖日益加深,保证互联网正常且稳定地运行是社会稳定运行的前提。但随着网络安全威胁技术不断升级,新的网络安全威胁不断涌现,网络安全面临较严峻的形势。而网络规模的不断增大,网络流量数据规模的增大,给网络流量的分析和异常检测带来了许多困难。因而,如何实时准确地发现大规模网络中存在的网络流量异常行为,保障网络正常且有效地运行,对提高网络的可用性和可靠性具有重要的意义。目前网络流量异常检测