基于强化学习的2D仿真足球机器人协作机制

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:baslove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在基于智能体学习的基础上,以RoboCup2D为实验平台,对多智能体强化学习及协作问题进行研究,研究内容如下:单智能体的控球策略优化问题中,提出了一种基于Sarsa(λ)算法的仿真足球机器人控球方法。首先在控球球员中加入Sarsa(λ)学习算法,对控球动作进行优化;然后通过对Keepaway抢球-控球模型中特点的分析,合理的划分控球球员的状态变量,依据控球球员是否拥有持球权定义动作函数与奖惩值,实验表明Sarsa(λ)算法的强化学习在Keepaway中使控球球员控球时间延长,控球成功率提高。针对多智能体的进攻协作问题,设计了加入通讯后的Sarsa(λ)算法实时广播智能体消息机制。首先在球员进攻协作中加入通讯的Sarsa(λ)算法,实时广播智能体当前状态-动作对的消息,提高了多智能体之间的通讯效率;其次根据球员间距离与角度更新进攻球员的状态变量,并以进球得分及加强协作效率为目标计算进攻球员的动作函数及奖惩值,对比分析有通讯与无通讯Sarsa(λ)算法的强化学习过程,实验验证有通讯Sarsa(λ)算法可加强多智能体的进攻协作,提高进攻协作效率。多智能体的攻防协作问题中,设计了一种基于Q-learning(λ)算法的攻防协作平衡体制。将Q-learning(λ)算法应用于多智能体协作中,加快学习收敛速度;接着基于球场区域化对智能体的状态变量进行划分,动作函数则分解为进攻协作和防守协作,其中防守协作的动作函数由一般球员与守门员不同模块构成,根据智能体以进球为目标和球的位置变化原则考虑奖惩值,实验数据验证了Q-learning(λ)算法收敛速度快,且能有效提升球队的攻防协作能力。
其他文献
男性作家对女性形象的创作受男权中心文化影响,使其在外部形象、话语方式等方面与女性作家笔下的女性形象存在不同。女性作家在自己的作品中有对女性形象塑造的本真性。本文
电子游戏是现代互联网重要的产业之一,无论是国内还是国外,电子游戏已经成为日常娱乐必不可少的部分。因此,本文聚焦于电子游戏的制作上,尝试将电子游戏的规则实现。不仅如此,现在的游戏制作都依赖于专业的游戏引擎,现在通用的游戏引擎几乎被U3D和UE4包揽,所以熟练运用游戏引擎也成为现在游戏行业的一个关键。UE4是UE系引擎第四代产品,它的设计目标是为了制作大中型游戏,其拥有各种强大的特性,在图形上美轮美奂
采用室内重型击实实验对含砾黏土的压实特性进行分析,结合CT断层扫描研究材料整体干密度、最优含水率及黏土的压实程度与掺砾量、含水率等因素之间的关系。根据无侧限抗压强度
法国释意派提出的释意策略,其核心理论是脱离语言外壳进行翻译,是口译过程中采用的行之有效策略之一。汉语习惯表达语大多与文化、历史、典故等密切关联,往往形成英语中的词
心电图教学是诊断学教学中的难点,存在着理论抽象难懂、技能培训不足等问题。因此,必须改进传统的教学模式,比如利用多媒体技术提高课堂讲授的学习效率、采用PBL与CBL教学相
中共中央办公厅、国务院办公厅日前印发了《关于构建现代环境治理体系的指导意见》,为我国构建党委领导、政府主导、企业主体、社会组织和公众共同参与的现代环境治理体系勾画
报纸
素质教育与大学生健康成才问题,多年来一直受到教育理论界和实践界的普遍关注。本文以旅游管理专业为例,将大学生非专业素质教育(思想道德素质、形体素质、审美素质、心理素质等
<正>中国网络文学一般习惯从1998年说起,到2018年,算20年。我在2017年断断续续花费了一年的时间,写一点个人关于中国网络文学和网络作家的"回忆录",然后就有了《大神们——我
绍兴的兰文化历史悠久,兰文化与书法文化在绍兴交融、延伸,越王勾践、王羲之、鲁迅等诸多名人,都留下了与兰亭书法、绍兴兰花有关的故事遗迹或诗词书画。以兰明志,以兰会友,以兰养
报纸
水库坝址选择不仅会受到地质条件的制约,而且还应该满足水库规划中对于供水规模的要求.为了科学合理的选择水库坝址,必须对水库周边环境进行详细勘查和分析,根据地质条件,选