深度强化学习综述

来源 :计算机学报 | 被引量 : 0次 | 上传用户:weixin1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策控制的任务中,深度强化学习方法已经取得了实质性的突破.该文首先阐述了三类主要的深度强化学习方法,包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习;其次对深度强化学习领域的一些前沿研究方向进行了综述,包括分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等.最后总结了深度强化学习在若干领域的成功应用和未来发展趋势.
其他文献
目的:探讨慢性乙型肝炎患者乙肝病毒前S1抗原(Pre S1-Ag)、抗核心抗体-Ig M(anti-HBc Ig M)与病毒载量关系。方法:采用ELISA双抗体夹心法检测Pre S1-Ag,ELISA捕获法检测anti-
随着全球范围内网上购物和消费者数据收集与分析的爆炸性增长,零售商实践与消费者的态度行为也随之而改变。但与此同时,当其它市场的消费者对技术和大数据革命最终走向何处持保留意见时,据调查,中国消费者热情地迎接了此种购物体验,即便网上购物带有科幻色彩的意味。  “关于购物的真相”这一新研究探讨了在与购物有关的所有领域(包括在线购物、手机购物、实体店购物、有关数据和隐私的看法和对购物环境及体验的偏好)内,全
学位
借中国富豪扬名的美国杂志 对于大多数中国人来说,美国著名财经杂志《福布斯》就是一个发布富豪榜的杂志。的确,只有很少中国人能读到那本散着奇怪油墨味的《Forbes》,它登
4月份,随着基层余粮逐步见底,国内玉米价格持续强势上涨,全国平均价格已经突破2000元/吨水平。但下游企业对高价接受压力较大,玉米深加工行业持续亏损,饲料需求普遍低迷。$$
报纸
精益教学管理是一种新的教学管理方式,其思想来源于企业的精益生产方式。要求在教学运行中树立以人为本的理念,抓住影响教学质量的若干关键环节,并采取有效措施予以改进,通过
<正>养生,原指道家通过各种方法颐养生命、增强体质、预防疾病,从而达到延年益寿的一种医事活动。所谓生,就是生命、生存、生长之意;所谓养,即保养、调养、补养之意。总之,养
目的:探讨两种不同水化方式对预防老年冠脉血管造影剂肾病(CIN)的影响。方法:选取300例行冠脉血管造影术的老年患者,随机平均分为试验组和对照组,每组150例。试验组术前10 h
<正>模仿、欺骗、愤怒、报复等行为,是动物的本能,还是他们反复思考后的行动?我们对动物的思维指导多少?家燕会双宿双飞,狐狸会教育子女,河狸会建造居室,蚂蚁会奴役和驯养有
目的:探讨保留括约肌手术治疗肛瘘的临床效果,总结临床经验。方法:选取肛瘘患者102例为研究对象,按照数字表法将其随机分为对照组和治疗组每组各51例。对照组患者给予瘘管剔
<正>森林对于人类身心健康的作用很早就被人类认识到。随着人类健康问题面临的挑战和人类对森林养生功能研究的深入,森林养生在世界各国日益广泛地开展。在发达国家和地区,也