带最大熵修正的行动者评论家算法

来源 :计算机学报 | 被引量 : 0次 | 上传用户：chaosmoon

【摘要】

：

在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与

【作者】

：

姜玉斌刘全 +胡智慧

【机构】

：

苏州大学计算机科学与技术学院,苏州大学江苏省计算机信息处理技术重点实验室,吉林大学符号计算与知识工程教育部重点实验室,软件新技术与产业化协同创新中心

【出处】

：

计算机学报

【发表日期】

：

2020年10期

【关键词】

：

强化学习深度学习行动者评论家算法最大熵策略梯度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大熵修正(Maximum-Entropy Correction,MEC)算法.该算法有两个特点:(1)利用状态值函数与策略函数构造一种状态动作值函数的估计,构造的状态动作值函数符合真实值函数的分布;(2)将贝尔曼最优方程与构造的状态动作值函数结合作为MEC算法的目标函数.通过使用新的目

其他文献

装配式结构安装施工技术探讨

近年来,装配式建筑得到了大力的推广,通过装配式结构安装施工技术的运用,不但能提高我国建筑工程的质量,还推动了建筑行业的发展朝着工业化的方向前进。作为一种绿色环保的装

期刊

装配式结构安装施工技术

乡村振兴战略指导下的乡村旅游创新发展研究——基于徐州乡村旅游网络数据的分析

2018年中央一号文件《中共中央国务院关于实施乡村振兴战略的意见》对中国特色社会主义乡村振兴道路怎么走进行了全面布局。乡村可持续性增长是乡村振兴的驱动力,乡村旅游是

期刊

乡村振兴战略乡村旅游创新发展网络数据徐州

践行诺言将“爱心助农”活动进行到底

又是一年芳草绿,又是一年备耕忙。在春耕备耕来临之际,抚顺福彩中心领导并没有忘记清原满族自治县南山城镇的贫困农民,践行着曾许下的诺言,为部分贫困户购买种子和复合肥。4

期刊

复合肥公益活动

游戏:日常生活的精神家园

黑格尔的“熟知非真知”道出了哲学的尴尬与艰辛。进入20世纪,胡塞尔、海德格尔、许茨等一大批哲学家都将其深邃的目光转向生活世界,西方马克思主义的代表人物列斐伏尔更以著

期刊

日常生活游戏精神家园哲学转向

绿色机场与可持续发展理念

所谓绿色机场是以创新、绿色、共享、开放、协调这几个发展理念为前提进行的机场现代化建设,主要目的在于符合当前环境建设理念,实现民航业的可持续发展。我国现代已经进入经

期刊

绿色机场可持续发展理念创新民航共享

电力配电网线损的降损技术探析

随着我国国民经济水平的日益发展下,对电力的需要也在日益提升,由于配电网在电网结构中占有重要的地位,为人们的生产生活质量提供了重要的保障。然而,当配电网在运作的过程中

期刊

配电网降损对策

带最大熵修正的行动者评论家算法

其他学术论文