面向动作类游戏仿真的多层深度强化学习研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户：wb5019

【摘要】

：

游戏AI是人工智能和游戏领域结合的产物,是强化学习领域的重要实验载体。强化学习解决的是序贯决策问题,与游戏中的智能体决策不谋而合。在该领域,近年来也出现了许多令人瞩

【作者】

：

陈佳黎

【出处】

：

电子科技大学

【发表日期】

：

2020年01期

【关键词】

：

深度强化学习多智能体强化学习分层强化学习游戏AI

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

游戏AI是人工智能和游戏领域结合的产物,是强化学习领域的重要实验载体。强化学习解决的是序贯决策问题,与游戏中的智能体决策不谋而合。在该领域,近年来也出现了许多令人瞩目的研究成果,从早期的DQN控制雅达利游戏得分接近人类水平,到AlphaGO击败世界顶级围棋选手,OpenAI Five在Dota2电子竞技上击败国际顶尖队伍,该领域越来越受到学术界的关注和重视。传统强化学习理论采用的是低维的输入,动作状态空间都比较小,但在面临复杂游戏环境时却遇到了越来越多的挑战,比如高维的状态动作空间、游戏反馈延迟且稀疏、多智能体系统下的环境不稳定问题等。本文以相对复杂的动作类多人足球游戏为实验载体,结合多智能体领域的沟通机制和强化学习分层思想,提出带沟通机制的分层多智能体强化学习方法。理论层面上,本文将行为主义和连接主义方法结合,探索了复杂环境下的多智能体集群智能问题。算法层面上,本文通过智能体独立的思想,以去中心化的训练方式,在高层的网络中增加通信沟通机制,推动智能体之间进行沟通分享信息,完善对环境、对其他智能体行为策略的感知,一定程度上解决了环境不稳定的问题,并促进了多智能体之间的协作对抗行为。本文提出分层的Actor-Critic结构来解决足球游戏复杂且流程稍长,其奖励具有稀疏、延迟的问题,以不同的时间尺度对传统马尔可夫决策过程进行拓展,类似于大脑控制决策、躯干执行动作的高低层结构,并以改进的快速近端策略优化算法FPPO作为高低两层的核心强化学习算法。应用层面上,本文使用Unity开发3v3的多人足球对抗游戏,并基于该游戏进行算法的实验,应用本文带沟通机制的分层多智能体强化学习方法。在实验中,该算法取得了与其他先进的强化学习算法相比更优的结果,算法的收敛速度更快,最终效果更好,分层的结构让智能体能够应对复杂长流程的决策,多智能体沟通机制让多个智能体学到了多种协作的优秀足球策略。

其他文献

回鹘文《金光明经》所反映的唯识宗概念

回鹘文《金光明经》是目前已知现存的篇幅最大的回鹘文文献,其中圣彼得堡保存的版本最为完整,柏林收藏的出土于我国新疆的版本多为残片,据拉施曼的《回鹘文〈金光明经〉编目》,柏林本残片至少有70个版本。其他残片散见于英国、瑞典以及我国等地。柏林本与圣彼得堡本相比,在内容方面大多保持一致,但也存在不少异文以及较为特殊形式的文本。这些为我们对勘比较各个文本提供了丰富的材料。在圣彼得堡本回鹘文《金光明经·分别三

学位

回鹘文《金光明经》唯识宗

批评是一门艺术

在教育工作中．批评与表扬是班主任常用的两大“武器”．是班级治理的“法宝”。正所谓表扬是甜．批评是苦。班主任的批评要以尊重学生为核心．以不伤害学生的自尊心为前提．这样学生才

期刊

批评的艺术尊重学生班主任工作

改革开放以来家庭结构变迁下的家风建设研究

家庭是社会的重要组成部分,家庭与社会每一位成员都息息相关,是个人的成长摇篮,是其人生中不可或缺的一部分。习近平指出:“国家富强,民族复兴,最终要体现在千千万万个家庭都

学位

改革开放家庭结构变迁家风建设

地理信息系统在综合减灾中的应用

减轻自然灾害是我国社会经济持续发展的一项必不可少的工作,本文从GIS基本功能、构成特点出发,归纳、总结出GIS在综合减灾中应用的几个方面,并以GIS在地震预报中的应用为例进

期刊

地理信息系统综合减灾应用

管道机器人清淤装置优化设计及动态特性研究

随着城镇化发展的脚步逐步加快,城市排水系统的安全性越来越受到重视,而排水管道作为城市基础设施建设中的重要一环,其排水畅通与否直接影响城市居民的出行安全和城市化发展。管道的定期清理是一种预防和解决管道堵塞淤积的有效手段。现有的管道清淤方法均存在缺陷,存在机械化和智能化程度不高、现有清淤设备适用性、稳定性不足等问题,本文提出一套轮-爪混合推进的管道清淤机器人设备方案,并对其清淤装置进行深入的研究。首先

学位

管道机器人清淤装置顺序优化振动稳定性流固耦合

四川省泸州市龙马潭区农业产业扶贫的现状及对策

党的十八大报告中提出了全面建成小康社会的宏伟目标,习近平总书记强调“全面建成小康社会,最艰巨最繁重的任务在农村,特别是在贫困地区。没有农村的小康,特别是没有贫困地区

学位

泸州市龙马潭区精准扶贫农业产业扶贫

南京长江第三大桥健康监测系统传感器优化布置研究

南京长江第三大桥主桥为钢塔双索面斜拉桥。介绍以有限元模型分析结果为基础,基于神经网络及遗传算法的全桥传感器测点优化布置理论,最终形成的该桥结构健康监测系统的传感器

期刊

斜拉桥桥塔钢结构健康监测传感器优化布置

基于FPGA的视频图像处理的研究与实现

数字图像处理泛指利用计算机软件或者新兴的各种硬件微处理器对图像进行处理的各种方法。数字图像处理包括:图像增强、图像复原、图像重建、图像分析、模式识别、计算机视觉[1]。图像缩放作为图像重建的一个分支,在数字图像处理领域发挥着不可或缺的作用,并且广泛应用于医疗、监控、机器视觉等领域。图像缩放的核心是图像插值算法,传统的图像插值处理技术主要是基于软件平台,一般运行在Windows系统的PC机上,虽然如

学位

数字图像处理FPGA视频图像缩放双线性插值算法

鼓膜置管联合鼻内镜下腺样体切除用于儿童分泌性中耳炎的临床疗效评价

目的:探讨鼓膜置管联合鼻内镜下腺样体切除用于儿童分泌性中耳炎的临床疗效。方法:选取本科室收治的分泌性中耳炎患儿进行研究,将患儿依据治疗方法不同分为观察组和对照组。

期刊

鼓膜置管鼻内镜下腺样体切除分泌性中耳炎tympanic membrane tubeendoscopic adenoidectomysecretory ot

面向动作类游戏仿真的多层深度强化学习研究

其他学术论文