多智能体的增强学习及其在RoboCup中的应用

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:dawneagle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对非确定马尔可夫环境下的多智能体系统,提出了多智能体Q学习模型和算法。算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择。在实验中,成功实现了智能体的决策,提高了AFU队的整体的对抗能力,证明了算法的有效性和可行性。
其他文献
本文根据高中英语教学大纲(试验修订版)对阅读教学的要求和原则,针对当前中学英语阅读教学中存在的问题,提出了中学英语阅读教学的策略和方法,认为阅读教学要实现从重视知识
基于距离的分析是GIS中的一项基本空间分析功能,目前该分析主要是基于二维的,对三维空间的距离分析研究则较少。对基于三维栅格的距离分析进行了研究,提出了基于三维栅格的最短距离算法,并把该算法应用于非均质的三维缓冲体的生成。
以西宁跨兰西高速公路特大桥(80+168+80)m连续-钢桁组合结构钢桁下节点安装定位工程施工为例,详细介绍了下节点在连续梁砼施工过程中如何精确定位和安装,确保在连续梁施工完成后
生存控制器被广泛地应用在关键的信息系统中。生存控制器的一个重要功能是做决策,也就是基于收益评价从用户给出的行动集合中选择相应的行动序列。因此,决策的质量决定了控制器
车间作业计划安排与实际执行的同步是制造执行系统需要解决的核心技术问题。通过系统的分析动态调度的问题类型,形成了动态调度的机制和策略;根据车间执行实时反馈信息,提出了基
提出了一种新的相关反馈方法,该方法引入了Rnorm重排序机制。通过计算用户反馈的按个人兴趣排列的期望输出顺序与系统输出图像顺序之间的.Rnorm值,来调整各个特征的权重,从而指导
提升教师素质, 提高教学质量,是摆在大学教育管理者和广大教师面前的一个恒久的课题.以物理化学课程教学为例, 从科研与实践、 教研、 爱与兴趣三个方面提出做好教学工作, 提
H.264是最新一代的视频编码标准,它支持高精度分数像素运动估计。当在整数运动估计中采用快速算法后,分数像素的运动估计可能成为制约快速运动估计算法性能的瓶颈。根据匹配准则
介绍了伪MTL代数的一些重要性质,引入了伪MTL代数的滤子、素滤子以及极大滤子的概念,研究了它们的性质以及它们之间的关系。