带最大熵修正的行动者评论家算法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:chaosmoon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大熵修正(Maximum-Entropy Correction,MEC)算法.该算法有两个特点:(1)利用状态值函数与策略函数构造一种状态动作值函数的估计,构造的状态动作值函数符合真实值函数的分布;(2)将贝尔曼最优方程与构造的状态动作值函数结合作为MEC算法的目标函数.通过使用新的目
其他文献
近年来,装配式建筑得到了大力的推广,通过装配式结构安装施工技术的运用,不但能提高我国建筑工程的质量,还推动了建筑行业的发展朝着工业化的方向前进。作为一种绿色环保的装
2018年中央一号文件《中共中央国务院关于实施乡村振兴战略的意见》对中国特色社会主义乡村振兴道路怎么走进行了全面布局。乡村可持续性增长是乡村振兴的驱动力,乡村旅游是
又是一年芳草绿,又是一年备耕忙。在春耕备耕来临之际,抚顺福彩中心领导并没有忘记清原满族自治县南山城镇的贫困农民,践行着曾许下的诺言,为部分贫困户购买种子和复合肥。4
黑格尔的“熟知非真知”道出了哲学的尴尬与艰辛。进入20世纪,胡塞尔、海德格尔、许茨等一大批哲学家都将其深邃的目光转向生活世界,西方马克思主义的代表人物列斐伏尔更以著
所谓绿色机场是以创新、绿色、共享、开放、协调这几个发展理念为前提进行的机场现代化建设,主要目的在于符合当前环境建设理念,实现民航业的可持续发展。我国现代已经进入经
随着我国国民经济水平的日益发展下,对电力的需要也在日益提升,由于配电网在电网结构中占有重要的地位,为人们的生产生活质量提供了重要的保障。然而,当配电网在运作的过程中