一种新的DRL算法的实现及硬件加速器研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:bxz231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着人工智能AI(Artificial Intelligence,AI)领域不断发展创新,深度强化学习异军突起,在工业制造、金融学、心理学、医疗学、汽车自动驾驶等领域得到了广泛的应用。深度强化学习将深度学习与强化学习技术结合,经过近几年的迅猛发展,许多算法相继提出,如A3C(Asynchronous Adavantage Actor-Critic,A3C),TRPO(Trust Region Policy Optimization,TRPO),DDPG(Deep Deterministic Policy Gradient,DDPG),PPO(Proximal Policy Optimization,PPO)等。另一方面,深度强化学习算法研究周期长、研发费用大,在工程研发中往往是一个巨大的开销。硬件加速器能够显著减少算法研究时间,加速工业化应用落地,帮助工程师快速部署AI技术,从而在人工智能市场上迅速抢占先机。目前针对深度强化学习的主流的硬件加速器包括CPU-GPU的加速模式和CPU-FPGA的加速模式。其中CPU-GPU平台具有NVIDIA提供的CUDA(Compute Unified Device Architecture,CUDA)支持库优势,在Tensor Flow和Py Torch上具有良好的生态环境,对于工程师来说是一个优秀的加速研究框架。它具有并行计算能力强、频率快、内存大的优势,但同时由于GPU的能耗开销大,在较小平台或大型服务器搭建方面有不可避免的能耗劣势。另一方面FPGA作为一种可编程器件,具有并行计算能力优秀,低功耗,可配置,资源丰富的特点,是深度强化学习的优秀加速硬件设备。但是硬件编程开发周期长的缺点,限制了CPU-FPGA平台的发展速度。本课题提出了一种新的深度强化学习DRL(Deep Reinforcement Learning,DRL)算法:LDPPS(Logarithmic Decay Proximal Policy Scaler,LDPPS)算法,以及其变体DPPS(Decay Proximal Policy Scaler,DPPS)算法。这两种算法针对PPO策略收敛能力进行优化,能够在部分mujoco任务中达到比PPO更高的得分。另一方面利用CPU-GPU平台,在Tensor Flow下使用CUDA和cu DNN(CUDA(?)Deep Neural Network library,cu DNN)库对本课题算法进行加速器设计;针对硬件编程开发周期长的缺点,本课题将LDPPS算法中大型矩阵运算通过Vivado的HLS工具转换为硬件IP核,缩短CPU-FPGA加速器开发流程,实现在使用CPU-FPGA的PYNQZ1平台上加速。最终结果显示,DPPS算法在策略易收敛任务上与PPO算法的得分基本持平,在策略收敛难度高的任务上比PPO同比高10~30%的得分;CPU-GPU平台相比单CPU运行速度达到了3.732倍的加速;PYNQ平台在实现低能耗相比单CPU在IPS(Inference Per Second,IPS)指标上达到了7.46倍的加速。
其他文献
在已经步入信息时代的今天,我们的生活中每时每刻都在产生着不计其数的视频数据。而在安防领域,覆盖城市的监控摄像头网络,每天在保卫着人们的生命与财产安全的同时,也会产生大量的监控视频数据。在发生事故后,监控视频通常是用于还原事故原因、追查嫌疑人的有效法宝。但覆盖整座城市的监控网络,其产生的视频不仅数量巨大,而且并非全部视频都包含有用的信息,在人群稀疏处的监控摄像头可能拍摄的大部分视频都是背景。大量的监
伴随着世界更加数字化、信息化,人们开始渴望通信系统领域的相关技术应用可以更加智能化。近年来,一大批深度学习研究学者将目光逐渐深入到军事雷达通信和卫星导航等领域,不断地有基于深度学习的信号调制识别、载波信号检测等算法被提出。然而,深度学习算法复杂,运算起来通常比较耗时。在对相关技术的实际应用中,人们还是希望可以在小巧易携带且节能环保的嵌入式设备上实施操作,并希望能够在低功耗的嵌入式设备上,更快地实现
目前许多无线传感器网络已经用在了环境安全监测中,以至于当安全事故即将发生时安全监测中心能够根据传感器所采集过来的信息提前做出预警;但是当安全事故真正发生时,很多时候安全监测中心并没有提前做出预警或者预警不及时,从而导致人员伤亡。监测系统没有正常运行的原因之一是输入到监测系统中的传感器数据不正确,导致监测系统无法识别出当时环境中的真正情况,从而没有发出预警;因此在监测系统处理对数据进行处理之前,需要
大功率毫米波回旋行波管由于其输出功率大、工作带宽宽、效率高等优点,因此其能够在军事、航空、国防等重要领域发挥重要作用,而要使得回旋行波管正常需要大功率高压电源系统为其进行稳定的供能,因此必须确保大功率高压电源系统工作的稳定性。但因为行波管在工作时可能由于真空度异常而产生打火现象,从而对大功率高压电源系统造成损害,进而影响整个行波管的工作,并且由于大功率高压电源系统其内部关键信号的正常产生与否是确保
近些年来,人工智能在各个领域发展迅速,特别是在物体识别,视频监测等方面发挥着十分重要的作用,人工智能所表现出来的卓越成绩和优秀的学习能力,使得越来越多的学者对人工智能产生了极大的兴趣。人的大脑可以控制生物完成十分复杂的学习行为,受此启发使得神经网络得到了发展,卷积神经网络作为神经网络的重要分支,具有容易实现且易训练的特性,同时,卷积神经网络的运算速度也使其发展面临着更严峻的挑战。因此本文提出了一种
实际生活中我们常常需要对模糊图像进行处理,不管是由相机抖动,还是噪声干扰、本身分辨率不够等原因引起的,都需要一种有效的方法将不清晰的模糊的图像变为清晰的图像。近期,越来越多的卷积神经网络模型被提出,可以快速高效地实现超精度图像重建的功能。经过前期的文献调研,发现快速超分辨率卷积神经网络(Fast Super-Resolution Convolutional Neural Network,FSRCN
卷积神经网络自问世以来一直在计算机视觉领域发挥着重要的作用,随着科学研究的进步和技术的发展,卷积神经网络能够胜任愈发复杂的任务。然而随之而来的后果是模型越来越复杂,参数量也在不断地提升,神经网络的训练和推理需要消耗大量的时间资源以及硬件资源。传统的通用芯片如CPU、GPU平台在处理复杂神经网络模型的问题上遇到了瓶颈,于是人们开始把目光投入到专用加速芯片的研究上。研究人员通过针对性的体系结构设计,采
近年来,智能传感器在人们的生活中占的比重越来越大,多传感器微系统在工业界受到广泛关注。传感器的模拟前端主要包括接口电路和模数转换器(ADC),其作用是将各种携带传感信息的非电或电可转换信号转化为电压\电流信号,最终输出数字二进制码。针对于特定架构和功能设计的模拟前端电路不适用于物联网无线多传感器节点系统,因为这些专用模拟前端无法有效利用高度集成微系统中的共享资源。在可穿戴智能设备、生物医疗电子设备
科技改变生活。普通传感器因为非智能化等原因将不能适应万物互连的智能时代。智能时代对传感器提出了更高的要求,因此智能传感器走入人们的视野。智能时代需要更加便携、高效的智能传感器,智能时代对智能传感器内部集成电路提出更高的要求。因为光互连技术能让智能传感器微型化、精准化、高效化,所以光互连技术将成为集成电路领域的研究重点。单片集成是智能传感器微型化和高效化的另一条件。目前的集成工艺多采用标准互补金属氧
人工智能神经网络已成为当下信息处理技术领域的重要发展方向,相对于软件实现人工神经网络,硬件实现人工神经网络有可以大批量并行处理数据的优势。目前大多数硬件实现的神经元电路由MOSFET器件构成,对于规模越来越大的人工神经网络,电路功耗问题日益严峻。随着器件特征尺寸不断减小,MOSFET器件在纳米量级下短沟道效应越来越严重,使器件功耗和性能恶化,限制了低功耗神经网络的发展。而基于量子隧穿原理的TFET