深度强化学习中的经验回放研究

来源 :东南大学 | 被引量 : 0次 | 上传用户：zyfufen

【摘要】

：

【作者】

：

刘颖

【机构】

：

东南大学

【出处】

：

东南大学

【发表日期】

：

2021年01期

【关键词】

：

深度强化学习经验回放状态分布优先采样

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

经验回放（Experience Replay,ER）是深度强化学习（Deep Reinforcement Learning,DRL）的重要组成部分,通过重复采样学习保留在经验池中的经验,优化目标策略。目前,经验回放存在两个问题:1)经验保留使用全保留或先进先出的经验池,需要与环境交互产生大量样本,导致深度强化学习算法的学习速度较慢,样本利用率有待提升;2)优先采样打破经验池中原本的分布,加大经验状态分布与策略状态分布的距离,导致算法的回报方差较高,算法稳定性较差。（1）针对学习速度慢、样本利用率低的问题,鉴于不同经验保留中经验状态分布存在差异,本文提出双经验池回放（Dual Replay Buffer,DRB）。双经验池回放同时维护全保留经验池和先进先出（First In First Out,FIFO）经验池,分别保留近似于环境全局状态分布和策略状态分布的经验,并使用混合经验采样更新网络,从而加速策略学习,提升样本利用率。（2）针对算法性能不稳定、回报方差大的问题,鉴于策略状态分布与经验状态分布间的距离较大,本文提出优先双经验池回放（Prioritized Dual Replay Buffer,PDRB）。优先双经验池回放在双经验池回放的基础上结合优先采样和经验过滤,根据时间差分误差度量优先级,同时滤去与策略状态分布相距较大的经验,并使用分段损失函数更新网络,从而提升算法的稳定性。本文使用Gym和PyBullet环境的控制任务对比不同经验回放的学习速度和回报。实验表明,相比于先进先出和全保留的经验回放,基于双经验池回放的深度强化学习算法学习速度大幅提高,回报达到最大值80%所需的情节数减少约33.17%。相比于优先经验回放和选择记忆经验回放,基于优先双经验池回放的深度强化学习算法的平均回报提高约12.25%,平均回报方差减少约45.85%,算法性能和稳定性明显提升。

其他文献

集束化护理在ICU重症脓毒血症患者中的应用效果

目的分析集束化护理在重症监护室（ICU）重症脓毒血症患者连续性血液净化中的应用效果,并分析其对患者的预后影响。方法选择东莞市南城医院于2020年6月—2021年2月收治的52例ICU重症脓毒血症患者作为研究对象,所有患者采用连续性血液净化治疗,依据患者入院治疗顺序分为对照组和观察组,对照组25例患者给予常规护理,包括记录尿量水平、密切监测生命体征等措施;观察组27例患者在对照组干预基础上增加集束化

期刊

集束化护理重症监护室重症脓毒血症效果

基于脑电图的抑郁症诊断方法研究

学位

基于知识图谱的IT运维辅助系统设计与实现

随着互联网技术的迅猛发展,目前大多数应用软件都建立在一个庞大、繁杂、跨协议层的大型分布式集群中。这类分布式集群的技术、软件、配置通常会不断地演变,难以避免会发生故障。面对海量的监控数据和庞大的系统,IT（Information Technology）运维人员很难做出迅速、准确的运维决策来应对各种故障。近年来,智能运维（Artificial Intelligence for IT Operation

学位

故障预测IT运维知识图谱表示学习

视频会议中多点控制单元维护管理工具的设计与实现

随着信息技术和多媒体技术的发展,视频会议在人们的生活中发挥越来越大的作用。多点控制单元是视频会议的核心,负责会议召集、音视频编解码和数据转发等核心功能。目前多点控制单元存在缺乏统一管理、内部操作复杂、自动化程度不高的弊端。针对多点控制单元维护管理现状,本文设计实现了一个以资源管理、监测告警和风险分析为主要功能模块的维护管理工具,完成了以下具体工作:（1）资源管理模块的设计与实现。该模块旨在对不同版

学位

视频会议多点控制单元维护管理

基于知识图谱表示学习的推理方法研究

面向知识图谱的知识推理旨在推理出与查询和规则相关的隐含知识或依据路径,是近年来知识图谱研究的热点问题之一。知识推理在封闭域的知识查询、知识图谱补全、开放域的知识问答、语义检索等场景中具有重要的的应用价值。虽然知识推理已有大量的研究成果,但现有推理模型在长距离和复杂关系的推理中,由于推理链长度增加导致搜索空间过大以及关系复杂多样等因素的影响,知识推理仍然面临着推理精度不够高和推理性能不够好的挑战。针

学位

表示学习强化学习知识推理知识图谱

基于蓝牙技术的室内定位和轨迹预测系统的设计与实现

随着无线通信技术与互联网技术的不断发展,基于位置服务（Location Based Service,LBS）的应用领域也逐渐从室外场景延伸到室内场景。室内场景随着多元化的产业升级变得愈加复杂,目前多技术融合应用是实现室内位置服务系统的发展趋势,主要涉及的技术包括室内定位和轨迹预测。传统的室内定位技术首先在室内部署位置已知的接入点设备,然后通过计算目标点与接入点之间的距离来实现,这种方法容易受环境影

学位

蓝牙室内位置定位位置指纹室内移动轨迹预测深度学习

带学习和遗忘效应的云制造工作流调度

云制造可按需提供各种制造服务,任务和资源调度是提高制造服务质量的关键。本文考虑云制造环境下具有截止期约束和学习遗忘效应的工作流任务调度问题,以最小化总成本为优化目标。该问题的主要挑战有:1)由于较低的租赁成本通常会导致较长的工作流完工时间,可能违反截止期约束,而较短的工作流完工时间通常需要租赁较高价格的服务资源,导致较高的总成本,如何平衡工作流的完工时间和总成本是一个挑战。2)制造任务在分布式制造

学位

学习遗忘效应工作流调度成本优化云制造

投资机构对ERC-20代币市场表现的影响分析

加密货币近年来吸引了众多投资机构的注意。在这个新兴的资本市场中,投资机构扮演了什么角色,对加密货币的市场表现有何影响值得深入分析。本文基于网络分析方法和监督学习技术对ERC-20代币的投资机构及相关市场数据进行研究,进而分析投资机构对ERC-20代币一级市场和二级市场表现的影响。对于一级市场,本文以ICO成功（上市满一年）和ICO失败（从未上市）衡量代币的市场表现,同时以上市首日交易量、上市首日收

学位

ERC-20代币投资机构首次代币发行加密货币网络分析

GitHub中软件生态系统的健康性度量与预测

近年来,开源已成为工业界高质量高效率开发核心软件的重要手段。而随着开源软件社区和开发平台的快速发展,可用的开源软件项目数量迅速增加。在共同的开发平台和环境中,开源软件项目相互联系,共同演化,形成软件生态系统。如今,软件生态系统已经成为构建大型软件系统的有效方法,受到了学术界和工业界的广泛关注,而GitHub作为全球最大的开源软件社区,成为了研究软件生态系统的绝佳对象。其中有大量的开源软件项目无法继

学位

开源软件软件生态系统健康性度量和预测图卷积神经网络

基于领域自适应的WIFI手势识别的研究与实现

学位

深度强化学习中的经验回放研究

与本文相关的学术论文