【摘 要】
:
近年来,深度学习算法已经成为机器学习领域应用的主流模型,其中,卷积神经网络和循环神经网络在图像、视频、声音、文本等各种数据对象的智能分类、检测、识别应用中效果尤其突出,已经成为最主要的两类深度神经网络模型。随着精确感知和高精度识别任务需求的不断增长,大量智能应用在采用这两类深度网络模型时均使用层数更深的结构,需要高算力专用硬件的支持,这两大类深度学习网络的加速技术一直是研究的热点问题。同时,针对不
【基金项目】
:
国家自然科学基金项目“后 E 级时代的新型高能效处理器体系结构”; 国家科技重大专项课题“超算协处理器与强智能终端的智能计算单元”; 军委科技委创新特区项目“图像智能算法”; 国家自然科学基金重点项目“面向多源遥感图像的深度学习技术与系统研究”;
论文部分内容阅读
近年来,深度学习算法已经成为机器学习领域应用的主流模型,其中,卷积神经网络和循环神经网络在图像、视频、声音、文本等各种数据对象的智能分类、检测、识别应用中效果尤其突出,已经成为最主要的两类深度神经网络模型。随着精确感知和高精度识别任务需求的不断增长,大量智能应用在采用这两类深度网络模型时均使用层数更深的结构,需要高算力专用硬件的支持,这两大类深度学习网络的加速技术一直是研究的热点问题。同时,针对不同数据对象和不同精度要求,卷积神经网络和循环神经网络结构在具体的应用中有很多变形,模型设计和加速优化需结合具体应用领域进行才可取得良好效果。因此,本文针对卷积神经网络和循环神经网络加速优化问题,深入研究模型结构设计、模型轻型化、并行加速等软硬件优化技术,并面向FPGA平台,研究两类网络模型及应用任务的敏捷设计及实现技术,获得了最主流的两类深度神经网络应用任务的高能效实现。本文的创新点主要包括:·研究了基于层折叠流水模型的卷积神经网络加速器设计(第二章)研究了基于层折叠流水结构模型的卷积神经网络加速器。本文详细研究了当前针对卷积神经网络加速实现的全折叠结构和全流水结构,提出了一种层折叠流水结构模型。通过分析卷积神经网络中各层的结构和操作共性,提出加速器的折叠层结构,使得共性层可映射到一层计算单元上,与无共性层通过流水栈相连,形成整个网络的流水实现结构。这种结构模型可以根据不同的片上存储、访存带宽、片上计算资源等实现约束来平衡层折叠状态,充分利用给定FPGA硬件资源,获得最优吞吐率。层折叠结构模型统一了各类卷积神经网络流水结构,使得全折叠和全流水结构成为该模型的两个特例。基于层折叠流水结构模型,本文提出了一个通用的加速器结构框架,设计实现映射了面向不同卷积神经网络的加速器,提出了框架性能分析模型,最后,基于该框架结构在Xilinx VC709板上实现了Alex Net和VGG16两种加速器,分别获得了593.5GOP/s和638.9GOP/s的吞吐率,最佳性能超过当前最先进的卷积神经网络加速器实现。·提出了基于层折叠流水模型的卷积神经网络加速器自动生成模型(第三章)针对卷积神经网络层规模变化导致的层折叠流水结构适用性问题,提出了基于层折叠流水模型的卷积神经网络加速器自动生成模型,从计算资源、片上存储资源、访存带宽和吞吐率四个方面建立层折叠流水线结构的的分析模型,提出了一种多因素约束下层折叠结构模型实现的设计空间探索算法,可自动搜索和生成面向特定FPGA资源约束的最优逻辑实现。该自动生成模型有效降低了卷积神经网络的代码开发周期,极大提高了应用便捷性。本文在Xilinx VC709平台上具体生成并验证了三种主流卷积神经网络Alex Net、VGG-S、VGG16,实验表明,自动生成模型给出的加速器实现与手工实现相比资源占用量误差小于5%,验证了自动生成的有效性和高效性。·提出了面向序列型卷积神经网络的加速器设计(第四章)针对声音等序列型卷积神经网络在具体应用任务中的变形,面向声音数据智能识别应用,研究适用于具体任务的卷积神经网络应用加速器。首先通过分析单最大值池化卷积神经网络的多尺度卷积组的并行特点,设计实现了基于一维卷积器的单最大值卷积神经网络加速器,与传统卷积神经网络加速器相比,其在完成相同任务时,能够占用更少的资源获得更优的性能。第二,本文提出了面向声纹识别的频率维卷积网络模型,并针对硬件实现约束进行结构优化设计,降低该模型的计算复杂度。然后基于频率维卷积网络模型,设计实现金字塔式层折叠流水结构的应用加速器,通过软硬件联合优化获得应用任务的高吞吐率实现。·提出了面向循环神经网络的结构压缩加速器设计(第五章)我们基于块矩阵循环算法研究了以LSTM为代表的循环神经网络加速器,首先我们采用块矩阵循环算法,简化了LSTM模型,之后分析了双层双向LSTM的访存模式,提出了流水结构LSTM加速器。然后对流水结构LSTM加速器应用场景受限的缺陷,设计了一个能够计算不同规模单层LSTM层的折叠结构LSTM加速器,在折叠结构LSTM加速器中,设计了LSTM的访存结构,该结构能够适用于正向/反向以及多层情况,最后提出了一套指令系统,能够将所有LSTM层解析成指令在该折叠结构LSTM加速器上执行。我们将提出的两种加速器结构和Wang和Han等人的工作相比,性能优于两者,同时结构的完整性也强于两者。
其他文献
利用机器人执行搜索救援和反恐排爆等危险任务,可有效减少人员伤亡、提高作业效率。由于任务环境复杂多变不可预知、且结构化与非结构化地形并存,要求机器人具备全地形的快速高效通过能力。然而,移动机器人的通过能力与速度效率之间往往不可兼得:仅具备轮、履、腿三者之一的传统机器人虽然结构相对简单,但是因为运动模式单一而不具备全地形通过能力;将轮、履、腿三者组合的多运动模式机器人虽然具备全地形通过能力,但是结构复
当今软件规模和复杂程度日趋增加,提高软件的可信性已成为软件工程领域研究的焦点,尤其是在国防、金融、医疗等安全攸关领域。许多安全攸关软件,一般与数学和物理模型紧密关联,从而不可避免地会涉及大量数值计算。因此,对程序的数值缺陷和性质进行分析和验证,对于提高安全攸关软件的可信性尤为重要。抽象解释是一种通用的抽象近似理论,它为程序语义的抽象和推理提供了一个统一的理论框架,并在程序分析与验证领域得到了广泛应
在以维持统一时间、空间为目的的天基传感网中,卫星子系统的时空系统基准维护具有重要而基础的作用。利用星间链路进行星间精密测距的卫星协同定位,可以让整个星座即使在没有地面支持的情况下长时间地维护一个可用的时空基准,具有很高的实际意义和战略价值。由于卫星运动模型的非线性性,传统的协同定位理论和分析方法不能直接用于分析卫星协同定位的性能和误差演化特性,制约了卫星协同定位的发展和研究。此外,要在实际中实现卫
核学习已被广泛应用于计算机视觉、自然语言处理、遥感影像分析等众多领域。核学习通过隐式映射把原始数据投影到高维空间(甚至是无穷维),然后通过核技巧将在原始空间线性不可分数据映射为在核空间线性可分。单核学习的主要任务是如何选择一个适用于数据表达的核参数,从而提高核学习的性能。单核学习虽应用广泛,然而它却不能很好的处理具有多源异构特征的数据。多核学习通过融合一组基核巧妙的使用数据的多源异构特征来提高学习
总线式控制系统作为工业控制系统的一种重要类型,在军民装备控制领域中得到了广泛而深入的应用。基于实时以太网通信链路的总线式控制系统已成为当今工控系统发展的主流。而国内关于此类系统性能方面的研究较少,整体水平与国外仍有一定差距。随着高端装备对控制精度,响应速度以及运行安全性等要求的不断提高,迫切需要突破实时以太网分布式架构中的系统任务调度、多节点高精度同步以及总线通信安全等核心关键技术。这些关键技术涉
在进入智能化社会和物联网普及的今天,传统冯·诺依曼体系结构在存储墙问题和功耗问题的制约下已无法满足高性能低功耗计算的需求。为弥补传统冯·诺依曼体系结构的不足,研究人员提出了存储计算融合的新模式,其中包括类神经计算和逻辑计算。忆阻器的出现使存储计算融合的可行性进一步提高,基于忆阻器的存储计算融合被广泛研究。忆阻脉冲神经网络作为基于忆阻器的类神经计算的一种模式,具有类生物性和超低功耗的优势,是目前的研
无源定位跟踪技术利用截获的辐射源发射的信号来确定该辐射源的位置和速度,自身不需要发射电磁信号,具有良好的隐蔽性,能提升探测系统在复杂电子战环境下的生存能力,是近年来探测、侦察技术研究的热点之一。在各种无源定位跟踪体制中,基于测向的无源定位跟踪技术利用辐射源来波到达角实现对辐射源的定位跟踪,在单站及多站组网观测场景中具有广泛应用。但是,在超视距观测和异步观测多目标跟踪场景,传统的测向定位跟踪技术面临
随着我国装备服役年限的增长和实战化运用水平的提高,间歇故障出现的频率越来越高,日益成为影响装备服役安全和任务成功的重要因素。由于间歇故障瞬变、随机、持续时间极短等特性,检测与诊断定位难度极大。论文在基础加强计划重点基础研究项目资助下,针对电子设备的主要间歇故障类型—板内连接型间歇故障,深入分析其间歇故障机理,开展间歇故障的检测与诊断技术研究。论文的主要研究内容包括:(1)板内连接型间歇故障机理针对
近些年来,由于深度神经网络(尤其是卷积神经网络,CNN)的发展,全世界见证了各类计算机视觉任务的成功,例如图像分类、目标检测以及视频分割等等。但是,随着视觉任务的日益发展,所需的模型结构愈来愈复杂,这给训练设备带来了沉重的存储负担。在实际应用中不可能将这些大型高性能模型直接嵌入资源受限的平台中,这将鼓励卷积神经网络模型朝着具有较小的内存和计算成本的方向发展,以便在不影响任务性能的情况下进行快速推断
高超声速滑翔式飞行器结合了飞航导弹和弹道导弹的技术优点,其高升阻比气动外形使它在滑翔飞行段具备大范围机动能力。在不断发展的防御武器威胁下,需要开展高超声速滑翔式飞行器机动突防相关研究。再入滑翔阶段是面临防御武器威胁的主要阶段,也是区别于弹道式武器突防的主要阶段。本文主要从高超声速滑翔式飞行器在再入滑翔段面向突防的轨迹规划、制导方法以及机动突防方法三个方面开展研究。主要研究内容和研究结果如下:1.研