深度强化学习进展:从AlphaGo到AlphaGo Zero

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户：liuking

【摘要】

：

2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果.并进一步研发出算法形式更为简洁的Alp

【作者】

：

唐振韬邵坤赵冬斌朱圆恒

【机构】

：

中国科学院自动化研究所,中国科学院大学

【出处】

：

控制理论与应用

【发表日期】

：

2017年12期

【关键词】

：

深度强化学习 AlphaGo Zero 深度学习强化学习人工智能

【基金项目】

：

国家自然科学基金项目(61603382,61573353,61533017)资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果.并进一步研发出算法形式更为简洁的AlphaGo Zero,其采用完全不基于人类经验的自学习算法,完胜AlphaGo,再一次刷新人们对深度强化学习的认知.深度强化学习结合了深度学习和强化学习的优势,可以在复杂高维的状态动作空间中进行端到端的感知决策.本文主要介绍了从AlphaGo到AlphaGo Zero的深度强化学习的研究进展.首先回顾对深度强化学习的成功作出突出贡献的主要算法,包括深度Q网络算法、A3C算法、策略梯度算法及其他算法的相应扩展.然后给出AlphaGo Zero的详细介绍和讨论,分析其对人工智能的巨大推动作用.并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进展,以及相关资源进展.最后探讨了深度强化学习的发展展望,以及对其他潜在领域的人工智能发展的启发意义.

其他文献

蚯蚓粪对草莓植株生长发育的影响及作用机制

蚯蚓粪是一种新型的富含养分的有机肥,其具有颗粒均匀、无异味、通气性好、保水性强等特点,在改良土壤和提高作物产量方面具有很大潜力。本试验首先利用蚯蚓粪提取液制备培养

学位

蚯蚓粪草莓温室产量品质生理指标

浅析陈云关于执政党干部队伍建设思想

陈云作为第一代中央领导集体的重要成员，在长期实践中形成了丰富的党建思想，而关于执政党干部队伍建设的论述是其党建思想的重要内容，主要包括选拔干部、了解和审查干部、使用干

期刊

陈云中国共产党执政党干部队伍建设

快固化环氧浸渍漆的制备及其影响因素探讨

选用不同类型的环氧树脂作为浸渍漆树脂，酸酐类环氧固化剂为固化剂，制备出无溶剂，高固体分子及溶剂型快固化杯氧绝缘浸渍漆，并对其影响因素进行了分析探讨。试验证明，对无溶剂绝缘

期刊

环氧浸渍漆快固化制备影响因素epoxy dipping paints quick-dry preparation influencing fact

深度强化学习进展:从AlphaGo到AlphaGo Zero

其他学术论文