增量式双自然策略梯度的行动者评论家算法

来源 :通信学报 | 被引量 : 0次 | 上传用户:smxsnjzch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通过线性函数逼近器来近似动作区间上下界的权值,将最优动作求解转换为对双策略参数向量的求解。为了加快上下界的参数向量学习速率,设计了增量的Fisher信息矩阵和动作上下界权值的资格迹,并定义了双策略梯度的增量式自然行动者评论家算法。为了证明该算法的有效性,将该算法与其他连续动作空间的经典强化学习
其他文献
目的研究在面部黄褐斑患者中使用强脉冲激光进行治疗的效果。方法 120例面部黄褐斑患者,按照入院就诊的时间随机分为激光组和药物组,各60例。激光组患者使用强脉冲激光进行治
陕西关中地区是陕西的中心地带,葬礼仪式历来是各种家庭仪式活动中最为重要的仪式之一。然而,在本应是悲痛情绪的葬礼仪式上,却经常可以听非常欢快、高兴的音乐,也就是所谓的
秦腔是我国戏曲艺术当中的一朵奇葩,拥有较长的发展历史,在长期发展和推广过程中也产生了巨大的影响力,整个艺术形式也在逐步走向成熟,并且担当着传承中华传统文化的重要职责
本文建立了基于1997年数据的中国动态金融CGE模型(ChinasDy-namicFinancialCGEModel,CDF_CGE),文章的内容包括金融社会核算矩阵(FinancialSocialAccountingMatrix,FSAM)的结
从音乐传播的视角,可窥探出《江苏音乐》的历史意义:对音乐创作成果进行记录和保存,对民间音乐作品进行传承与发扬;对学校音乐教育进行辅助与补充,对社会音乐教育进行提高与
进行传统文化阅读推广,通过传统文化阅读安抚人们躁动的灵魂,构建社会主义核心价值体系,引领人们走出腐朽思想的误区,形成社会主义新风尚,是社会主义国家图书馆必须切实解决
目的:通过对初产妇实施护理干预,探讨干预措施对初产妇焦虑及抑郁的作用。方法将本院2013年收治入院的初产妇100例随机分为两组,每组50例,对照组成员实施常规的护理措施,实验组成
中职学生管理几乎成了每一个班主任的难题,大家普遍认为学生不好管理。作为老师我们要学会认识学生,了解他们的内心世界,首先我们就要学会换位思路,挖掘问题的根源,在真正明
本文详细介绍了脱落酸(ABA)诱导基因表达的各种调控元件及各调控元件间的相互作用和关系.综述了近年来对ABA诱导基因表达的调控元件的研究进展.
基于利益相关者视角对中国非志愿移民的补偿制度的历史与现状进行分析,表明现行非志愿移民补偿制度的缺陷是:移民补偿制度变迁存在路径依赖导致无效率问题,制度设计忽视了移民可