【摘 要】
:
机器人足球(RoboCup)是一个研究多智能体系统在实时对抗环境下决策与合作问题的平台。由于分布性、实时性、动态性、异步性等特点,使其成为分布式人工智能研究的一个标准的平
论文部分内容阅读
机器人足球(RoboCup)是一个研究多智能体系统在实时对抗环境下决策与合作问题的平台。由于分布性、实时性、动态性、异步性等特点,使其成为分布式人工智能研究的一个标准的平台。防御仿真(Soccer Keepaway)是机器人足球中的一个小的子任务,是研究强化学习的标准平台(benchmark),大部分强化学习方法都可以在该平台上得以检验。 强化学习不需要先验知识,直接与环境进行交互获取知识、改进行为策略。由于能够处理噪声的干扰和随机性,以及延迟的目标,不必知道系统的动态模型。对于大的状态空间问题也可以通过状态压缩、函数近似的方法解决,能够相对快速地进行决策,能够解决RoboCup中的诸多富有挑战性的问题,因而在机器人足球中获得了广泛的应用。 本文分析了几种强化学习方法,包括基于值函数(Value-Based)近似方法、策略梯度方法(Policy Gradient)、以及Actor-Critic方法等。着重讨论了Actor-Critic强化学习方法以及用片(Tile-coding)线性函数近似来获取特征值的方法。而且分析了在防御仿真中使用Actor-Critic方法的优缺点,同时与基于值函数近似的强化学习以及基于策略梯度的强化学习做了一个比较。 最后,通过实验对强化学习算法得到的策略以及标准的策略做了一个比较。结果表明,通过强化学习方法得到的策略要优于标准策略;对于小的问题,球员在360度视角下,通过Actor-Critic强化学习方法得到的策略比基于值函数强化学习方法Sarsa(λ)得到的策略要好。
其他文献
视频较其它的信息载体具有信息量大、方便实用等特点,在各个领域都得到了广泛应用。H.264作为最新的国际视频编码标准,它支持从低带宽、高误码率的无线移动视频通信到高码率、低
如今Web的主流化使得企业应用系统由封闭状态逐渐走向开放,企业应用面对的信息资源将越来越依赖于Web环境。基于J2EE的分布式应用系统作为企业应用开发的主流,所面临的一个重
网络的本质和它的最大特点在于资源的共享。网络发展的过程中由于带宽及处理能力等的限制,使得我们的沟通中出现了很多的中间环节,如中间服务器、门户网站、第三方信息(交易)
水情水调系统(System for Hydrologic Data and Reservoir Dispatching,简称HDRD)是一个集计算机及网络通讯技术、自动化硬件设备与接口、水库调度专业知识为一体的大规模集
电子政务是随着计算机技术和网络技术的快速发展而建立起来的。电子政务的目的是利用现代的信息技术实现政府办公网络化、自动化、无纸化,以提高政府部门的办公效率,打破政府各
随着社会的发展,人们的活动范围越来越大并且越来越不确定。这种移动性和不确定性给移动通信带来市场和挑战的同时,也为位置服务的开展和扩大带来了无限商机。鉴于对位置业务未
信息系统在现代社会已经深入到各行各业中,在各自的位置上发挥着重要的作用。随着网络技术的发展,使得基于网络的资源共享成为可能,几乎每一个大中型公司和许多小型的公司,都
周期模式主要是研究时序数据库中的循环特性,是时态数据挖掘的一个重要的研究方向。周期模式的挖掘具有广泛的应用前景,如:气候、每天的交通模式、股票交易的波动、网站的访
海油平台是为了开采石油、天然气等海底资源而建造的生产和生活所需的巨型海上钢铁结构物(装备)。海油平台的生产类型属于单件生产(小批量生产极少见),因此不同海油平台之间
2008年以来,云计算在IT业被广泛关注。云计算被看作是分布式处理、并行处理以及网格计算发展的产物,其中云计算的关键是并发、分布,核心是海量数据处理。但是云计算只是一种