论文部分内容阅读
机器人足球的研究涉及了人工智能、机器人学、计算机视觉及智能控制等多个领域,是目前机器人研究中的一个热点。由于机器人足球具有分布性、实时性、动态性、异步性等特点,使其成为分布式人工智能研究的一个标准的平台。仿真足球机器人比赛相对于实体比赛而言有不需要昂贵的高性能设备、环境要求低等优点,仿真比赛可以从软件来模拟实体比赛,学者可以将更多的算法应用于该平台,从而检验这些算法的优劣。强化学习不需要具备先验的知识,它可以直接通过与环境的交互来获取知识,从而改变策略。由于强化学习具有不需要环境模型、能够处理噪声的干扰和随机性的特性,当状态空间很大的时候也可以通过状态压缩、函数近似等方法来解决。所以强化学习在足球机器人中得到了很广泛的应用。本文首先对足球机器人的研究背景和现实意义进行了简单的介绍,并介绍了所使用的仿真平台。其次,研究了强化学习的基本原理,并研究了几种经典的强化学习算法,即瞬时差分算法、Q算法和SARSA算法。最后,将SARSA学习算法应用在单智能体仿真环境中,使用强化学习方法时需要考虑状态的离散化,动作函数的设计,奖赏函数的设计,动作选择的方法等方面。将一种改进的SARSA学习算法应用在多智能体环境中,使智能体的学习效率更高,并与SARSA算法的实验效果进行比对,验证了这种改进的算法的优越性。