正则化强化学习策略梯度算法的研究

来源 :北京化工大学 | 被引量 : 1次 | 上传用户：sdwtb

【摘要】

：

学习控制是强化学习中的主要任务之一。该任务的目标是获取最大化期望回报的策略。近年来,许多用于求解连续动作空间的策略梯度算法被提出,这些策略梯度的研究工作主要围绕着

【作者】

：

李论通

【出处】

：

北京化工大学

【发表日期】

：

2019年01期

【关键词】

：

强化学习正则化策略梯度策略评价函数逼近

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

学习控制是强化学习中的主要任务之一。该任务的目标是获取最大化期望回报的策略。近年来,许多用于求解连续动作空间的策略梯度算法被提出,这些策略梯度的研究工作主要围绕着在线实现、减小估计方差、提高算法稳定性、扩展到离策略、确定性策略、部分可观测马尔可夫决策过程等方面展开。强化学习方法作为机器学习中的重要方法,在值函数或策略的函数空间较大时,也会出现与其他机器学习方法一样的过拟合的情况。而现有针对策略梯度的正则化研究还很少。因此,本文重点研究了正则化策略梯度的方法,借助范数正则化来降低模型参数的个数以及减小参数的范数,以控制模型复杂度,并提出了一系列用于求解正则化强化学习问题的算法。本文的主要研究内容包括以下三部分:1.提出了评价网络迭代策略梯度(CIPG)算法。该Actor-Critic(AC)算法以在策略方式对状态值函数进行估计,并沿着最大化折扣回报和的梯度方向来改进策略。在每一次迭代中,CIPG使用l2-范数正则化梯度最小二乘策略评价算法(LSTDC)对一个保持不变直到该次迭代结束后才更新的策略进行评价。论文给出了所提出方法的收敛性分析,将带有函数逼近器的策略梯度分析扩展到使用递推最小二乘时域差值评价网络的情形,通过基准仿真实验验证了评价网络的正则化作用不随着学习过程衰减且该算法具有高效的学习效率及快速的收敛性能。2.为了实现动作网络的参数的正则化和基函数选择功能,本文在动作网络中施加l1-范数正则化。在每一次迭代中,该方法最小化标准强化学习目标函数和动作网络参数的l1-范数两项之和,并通过正则对偶平均方法进行求解,称之为正则对偶平均策略梯度算法(RDA-PG)。RDA-PG可以高效求解以上最小化问题,并能够实现对随机策略或者确定性策略梯度估计的正则化和基函数选择功能。论文基于双时间尺度随机逼近理论对所提出的算法进行了收敛性分析,并通过数值仿真和真实物理实验验证了所提出算法的基函数选择功能及在随机和确定性策略的稀疏表示。3.针对深度强化学习中动作网络的参数范数正则化问题,提出了基于l1-范数/l2-范数正则化的深度强化学习离策略AC学习控制算法。所提出的目标函数可以直接利用现有深度学习框架,例如TensorFlow和Pytorch的自动求导机制进行动作网络和评价网络的权值更新,求解具有连续状态和动作空间的强化学习问题。该方法在原有软AC(Soft AC)方法的基础上,引入具有l1-范数/l2-范数正则化作用的动作网络,给出了范数正则化深度强化学习的学习目标函数,定义了该目标函数下的包含策略参数的范数项的值函数和贝尔曼方程,证明了状态、动作空间有限情况下的正则化策略迭代收敛到最大化所提出目标函数下的最优策略。然后结合函数逼近器,扩展到连续状态、空间情形。本论文通过贝尔曼方程定义评价网络的目标函数,再根据策略梯度的极大似然估计方法和再参数化方法给出了两种动作网络的权值更新规则。并且,给出了正则化参数自适应调整的方法。

其他文献

面向地震风险评估的高分辨率遥感影像建筑物信息提取与研究

地震灾害突发性强、破坏性大,严重威胁人类生命和财产安全,严重影响经济发展和社会稳定。受当前科技水平限制,人类尚不具备准确预测短期地震发生的能力。因此,震前进行大范围

学位

地震风险评估地震易损性情景地震乌鲁木齐渭南机器学习深度学习卷积神经网络多源数据

多智能体系统一致性研究与应用

多智能体系统是复杂网络控制系统的分支之一,有着非常广泛的应用。它的研究已经成为国际上众多领域的重要课题。多智能体系统研究进展受到控制科学、数学、信息学、物理学、

学位

多智能体系统一致性通信拓扑一致收敛控制协议指数控制器

射频涡旋电磁波辐射机理研究

电磁轨道角动量(Orbital Angular Momentum,OAM)是近年来电磁场领域的研究热点。原因在于,其可能成为一个新的信息调制维度,极大扩展电磁波承载和传递信息的能力。近三十年来

学位

轨道角动量涡旋电磁波环形天线阵列超表面阻抗调制表面多模式涡旋波

房地产行业对我国区域金融稳定的影响及对策研究

维护金融稳定是当前我国须高度关注的一个重大问题,特别是我国改革进入深水区、攻坚期后,我国经济发展环境更加复杂多变,发展不平衡不充分的一些突出问题尚未解决,而与此同时

学位

区域金融稳定房地产房地产价格房地产库存空间计量模型

miR-141靶向NFIA通过介导AKT/ERK通路调控非小细胞肺癌细胞放射敏感性的机制研究

目的:目前肺癌的发病率和死亡率在全世界恶性肿瘤中排名首位,是肿瘤相关性死亡的首要原因,占全球肿瘤相关性死亡26%。非小细胞肺癌(non-small cell lung cancer,NSCLC)作为最

学位

非小细胞肺癌放射抵抗非编码RNAmiR-141NFIA

内部审计人员胜任能力模型研究

着眼于既可满足组织战略和未来竞争的需要,又能适应组织个体特征的需求,本文建构了由核心胜任能力和拓展胜任能力构成的战略及目标导向的内部审计人员胜任能力金字塔结构模型

会议

内部审计人员胜任能力模型

高性能互连网络新型拓扑结构与路由算法研究

随着晶体管集成技术和存储器技术的发展,应用程序对计算能力需求的增长,高性能计算机系统的计算结点规模持续增大。高性能计算机系统的互连网络子系统对系统整体的成本开销、

学位

高性能互连网络高阶路由器多芯光纤路由算法

和谐社会与公务员权利救济

构建社会主义和谐社会是党中央、国务院根据国际国内形势发展变化,而作出的一项重要决策。构建社会主义离不开一个稳定团结、高效有序的政府。只有机关内部的和谐有序运行,才

会议

公务员权利行政救济司法救济

基于半马尔可夫核的隐半马尔可夫切换系统的分析与综合

工作环境的突变、传感器或执行器的故障以及非线性系统工作点转变等都可视为一类随机切换现象,这种切换现象广泛存在于航空航天、化工生产、通信网络等实际生产应用中。随机

学位

hidden semi-Markov切换系统σ误差均方稳定semi-Markov核时变控制策略驻留时间概率密度函数

SCMV侵染和干旱胁迫状态下玉米全基因组水平翻译调控的研究

玉米是世界上重要的粮食、饲料和能源作物,也是我国种植面积和产量第一大谷物。甘蔗花叶病毒(Sugarcane mosaic virus,SCMV)是我国北方地区玉米矮花叶病的主要病原,给玉米生

学位

玉米SCMV核糖体图谱技术翻译光合作用

正则化强化学习策略梯度算法的研究

其他学术论文