强化学习在足球机器人仿真中的应用

来源 :长沙理工大学 | 被引量 : 3次 | 上传用户:zhchbetty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人足球的研究涉及了人工智能、机器人学、计算机视觉及智能控制等多个领域,是目前机器人研究中的一个热点。由于机器人足球具有分布性、实时性、动态性、异步性等特点,使其成为分布式人工智能研究的一个标准的平台。仿真足球机器人比赛相对于实体比赛而言有不需要昂贵的高性能设备、环境要求低等优点,仿真比赛可以从软件来模拟实体比赛,学者可以将更多的算法应用于该平台,从而检验这些算法的优劣。强化学习不需要具备先验的知识,它可以直接通过与环境的交互来获取知识,从而改变策略。由于强化学习具有不需要环境模型、能够处理噪声的干扰和随机性的特性,当状态空间很大的时候也可以通过状态压缩、函数近似等方法来解决。所以强化学习在足球机器人中得到了很广泛的应用。本文首先对足球机器人的研究背景和现实意义进行了简单的介绍,并介绍了所使用的仿真平台。其次,研究了强化学习的基本原理,并研究了几种经典的强化学习算法,即瞬时差分算法、Q算法和SARSA算法。最后,将SARSA学习算法应用在单智能体仿真环境中,使用强化学习方法时需要考虑状态的离散化,动作函数的设计,奖赏函数的设计,动作选择的方法等方面。将一种改进的SARSA学习算法应用在多智能体环境中,使智能体的学习效率更高,并与SARSA算法的实验效果进行比对,验证了这种改进的算法的优越性。
其他文献
It is widely recognized that caching is an indispensable technology for thenext generation mobile content delivery networks (CDNs).In particular, caching atmobi
随着移动通信技术的日渐成熟,数据传输速度的不断提高,尤其是3G技术的逐渐普及,数据流量呈日益剧增趋势。而数据业务相关预测的空白,使通信运营商对网络建设及调整缺乏有效指
掌纹特征识别是典型的生物模式识别技术之一,手掌纹理具有独特性、稳定性以及可靠性,且掌纹图像的采集区域大、对采集设备要求较低、采集方式易被人们接受,因此,研究掌纹识别
目前TD-LTE系统已经形成了比较完备的国际化产业链,其设备也接近FDD-LTE商用初期的同等水平,其单模芯片终端可以长时间稳定地在网工作。总的来说,TD-LTE的技术、产品、组网性能
无线传感器网络是一种大规模、自组织、多跳、无基础设施支持的无线网络,由大量传感器节点组成,这些节点被随意散布在工作区域内采集数据,观察者通过无线传感器网络得到传感器节
认知无线电是一种提高授权频段频谱利用率的新兴技术。频谱检测是其关键任务之一。本文分析主用户的行为特性,并研究基于该特性的频谱检测技术。本文首先介绍了认知无线电的
耳语音作为正常音的补充和替代,是人们日常生活中广泛使用的语言交流方式之一。随着社会经济的发展,耳语音在手机通信、金融服务行业、公安司法等领域中发挥着越来越重要的作
在过去几十年中,移动通信行业对无线频谱的使用需求一直在急剧地增加。为了克服传统静态频谱分配方式对无线网络性能的约束,满足未来无线通信对宽带化的需求,实现网络组网灵
目前,网络协议分析工具的种类很多,这些工具为用户提供了一个好的平台实现网络协议的学习分析,并对网络实际情况进行判断和研究。本文在当前流行的网络协议发包平台的原理和特点
学位