论文部分内容阅读
本文在RoboCup3D仿真平台中,实现建立了高通量计算机集群HTCondor系统,并在此基础上建立了Robocup3D个体机器人的动作优化机制,对机器人的踢球及行走参数进行了训练优化,其次基于足球队伍的阵型及角色分配两个问题研究了动态环境中多智能体的有效协作对抗策略。个体机器人的动作优化问题中,由于单机优化速度较慢,采用高吞吐量计算机集群系统分配网络资源,缩短优化时间;其次利用CMA-ES算法,对5类机器人的踢球动作进行了优化,使用该算法的增强学习训练框架,成功地优化了机器人的远射及快踢动作。针对机器人行走优化对单一训练任务过拟合的问题,设计了多个子任务和多个子参数集的分层学习方法,全面提升了5类机器人的行走、转弯和带球的机动性和稳定性。多智能体的协作对抗策略中,分别针对足球队伍的阵型优化和多智能体的角色分配优化问题进行了研究。首先基于Delaunay三角网对足球场进行了剖分,并采用基于形势的阵型机制(SBSP)对足球队伍的阵型进行了设计,有效实现了足球在关键位置的足球队伍整体阵型的多样化;在阵型确定的基础上,利用Markov决策过程(MDP)模型,对机器人队伍的角色分配进行了优化,综合考虑仿真环境中5种不同类型的机器人的距离、朝向、是否跌倒、速度等影响因素,利用线性函数近似的Sarsa(?)学习算法对MDP模型中的动作值函数进行求解,寻找最优的角色分配方案,提高了团队的整体进攻防守效率。经过多次实验证明,本文的研究对于Apollo3D队伍的个体机器人以及整体队伍的阵型分配及角色轮换方面有着较大的提升。