深度强化学习进展:从AlphaGo到AlphaGo Zero

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:liuking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果.并进一步研发出算法形式更为简洁的AlphaGo Zero,其采用完全不基于人类经验的自学习算法,完胜AlphaGo,再一次刷新人们对深度强化学习的认知.深度强化学习结合了深度学习和强化学习的优势,可以在复杂高维的状态动作空间中进行端到端的感知决策.本文主要介绍了从AlphaGo到AlphaGo Zero的深度强化学习的研究进展.首先回顾对深度强化学习的成功作出突出贡献的主要算法,包括深度Q网络算法、A3C算法、策略梯度算法及其他算法的相应扩展.然后给出AlphaGo Zero的详细介绍和讨论,分析其对人工智能的巨大推动作用.并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进展,以及相关资源进展.最后探讨了深度强化学习的发展展望,以及对其他潜在领域的人工智能发展的启发意义.
其他文献
蚯蚓粪是一种新型的富含养分的有机肥,其具有颗粒均匀、无异味、通气性好、保水性强等特点,在改良土壤和提高作物产量方面具有很大潜力。本试验首先利用蚯蚓粪提取液制备培养
陈云作为第一代中央领导集体的重要成员,在长期实践中形成了丰富的党建思想,而关于执政党干部队伍建设的论述是其党建思想的重要内容,主要包括选拔干部、了解和审查干部、使用干
选用不同类型的环氧树脂作为浸渍漆树脂,酸酐类环氧固化剂为固化剂,制备出无溶剂,高固体分子及溶剂型快固化杯氧绝缘浸渍漆,并对其影响因素进行了分析探讨。试验证明,对无溶剂绝缘