基于平均序列累计奖赏的自适应ε-greedy策略

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:pt315311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用"ε-greedy"策略处理探索与利用的权衡问题,未考虑影响智能体做出决策的其他因素,具有一定的盲目性。针对此问题提出一种自适应调节探索因子的ε-greedy策略,该策略依据智能体每完成一次任务所获得的序列累计奖赏值指导智能体进行合理的探索或利用。序列累计奖赏值越大,说明当前智能体所采用的有效动作越多,减小探索因子以便更多地利用历史经验。反之,序列累计
其他文献
为了充分发挥学科教学研究基地学校引领示范作用,形成协作探索的良好氛围,实现优势互补,资源共享,展示泾河新城“课堂革命”的成果,2021年5月22日泾河新城泾华学校成功举办了
居敬堂对瓶花为画(明末清初)八大山人  北宋时,朱光庭赶赴汝州,去拜见自己的老师程颢,听其讲学,过了一个多月才返回家中。朱光庭逢人便说:“光庭在春风中坐了一个月!”与人对坐,竟能让一个人像坐在春风里,心旷神怡至此,多么难得!  程颢的学问自不必说,是儒学史上的一座丰碑。他的脾气也好得不得了,总是满面平和之气,友朋门生,几十年也未曾见他气急色厉。程颢既是一位良师,润物细无声,又是一位益友,吹面不寒杨
传统教学方法主要以教师口述和绘制板书的静态模式传递信息数据,具有一定的滞后性和实效性,不利于教学效率的提高,而大数据的出现则为小学数学的教学课堂提供了更多知识资源
摘要:近年来,电动自行车以其经济、便捷、环保等特点,日益成为人们近距离出行代步的重要工具之一,保有量迅猛增长,同时电动自行车火灾事故频发,不少事故造成了重大人员伤亡和财产损失,社会影响巨大,笔者分析了电动自行车消防安全管理现状及原因,就加强其消防安全管理工作提出了意见建议。  关键词:电动自行车;电瓶;消防安全隐患;相应对策  电动自行车以其经济、快捷等优点,成为本市广大市民群众出行的重要交通工具
陕西省旬阳县第一幼儿园多年来坚持以教育信息化为龙头、带动教育现代化、实现幼儿教育全面发展的发展战略,不断优化和提升幼儿园信息化软硬件实力。于2019年创建为市级智慧
成都49中的17岁高二男生小林,在母亲节当天从高空坠亡。坠亡的时间,距离母亲最后一次见到他,不过两个小时。整个案件一度疑点重重,一个好好的孩子怎么会跳楼自杀?小林成绩优
武汉植物园位于东湖之滨、磨山南麓,处于东湖腹地,被东湖秀丽山水环绕。作为国家三大核心植物园之一、国家战略植物资源保护与储备基地和国立综合性研究机构的武汉植物园目前
所有的学科在发展过程中都会形成自身特有的语言,以实现知识内容的表达和交流。数学学科也不例外,数学语言作为表达科学思想的重要工具,有着清晰、准确、严谨以及精炼的特点,
01《庄子·齐物论》说:“果且有成与亏乎哉?果且无成与亏乎哉?”成与亏,其实就是成与败。二者有多大的差别呢?标准是谁定的呢?庄子举例子,比如,昭文这个人很厉害,就因为有成
西安雁塔区艺林小学是一所全日制民办小学,位于西安市雁塔区雁环中路169号中铁尚都城社区。学校占地面积21亩,建筑面积5950平方米。学校部室设备齐全,目前有30个教学班,在校