基于强化学习的多Agent协作研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:hfzxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自二十世纪90年代以来,关于多Agent系统的研究逐渐引起重视并成为人工智能研究的热点。多Agent系统中,具有不同目标的各个Agent必须对其目标和资源使用进行协作,因此,Agent间的协作是多Agent系统(MAS)研究的核心问题。协作不仅能提高单个Agent以及多Agent系统的整体性能,增强Agent及多Agent系统解决问题的能力,还可以提高多Agent系统的灵活性。这就需要多Agent系统中每一个都必须具备学习能力,从而优化系统性能,适应环境变化。 强化学习是近几十年来迅速发展起来的一类机器学习算法。强化学习不需要有先验知识,而是通过与环境的不断交互获得知识,改进行为策略,具有自学习的能力。强化学习由于自身特点,在多Agent协作研究领域中受到了国内外越来越多的重视。 基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中。由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此不能把强化学习直接用于多智能体的协作学习问题。 在基于强化学习的多智能体环境下,评价一个智能体行为的效果和其他智能体的行为是密切相关的,如果每个智能体都能够通过预测其他智能体的行为再来采取自己的行为,则必将大大促进整个系统的协作。在传统强化学习方式中引入组合动作的基础上,本文采用了一种基于行为预测的多智能体强化学习方法,研究了对其他智能体行为进行预测的几种可行方法。并且在研究了种通过动作概率进行预测的方法后,提出了一种基于历史动作采样的预测方法。其中,提出了一种基于长期得益的阶段博弈的评估方法,长期得益可以随着与环境的不断交互和获得环境给予的回报而逐渐收敛至稳定值;提出了一种LR的行为选择策略,它可以驱使agent采取最优的行为。作者对算法进行了一系列实验,其结果都是收敛的,表明该算法是有效的,实验还对影响稳定值大小和收敛速度的因素得出了有益的结论。
其他文献
Web Services是一种完全基于XML、XSD(XML Schema)的独立于平台、独立于软件供应商的标准,是一种创建可互操作的、分布式应用程序的新平台,是目前最有生命力的跨平台技术和分
信息技术的高速发展和广泛应用,引发了全球性的产业革命,正推动着世界经济的发展与人类社会的进步。物联网作为新兴网络,虽然不是一个新的概念,但是已经成为了经济、科技发展
目前,国内的专网通信领域按调度方式划分主要包括三大类系统:无调度功能的对讲机系统,依赖于基站调度的集群系统和本身具备调度功能的无中心系统。在通信系统全面数字化的趋
在医疗康复领域,传统的康复训练方法有人工辅助康复和机器人辅助康复两种,现在普遍存在医疗资源匮乏、设备造价昂贵、维护成本较高等问题。人机交互指人通过身体姿势(包括手势、体势、表情等)将想要表达的信息传递给计算机,计算机识别人体行为动作并进行反馈。利用人机交互来代替传统的康复训练方法可以有效解决上述问题,为病患提供一套廉价、方便、有效的康复训练系统是康复领域研究的热点。本文采用基于虚拟角色的游戏方式,
数据库物理结构(索引,物化视图,裂片等)的改变虽然不影响查询结果,但会影响数据库性能。数据库的物理结构、查询优化引擎和执行引擎构成了影响数据库性能的三大要素。 第一代关
关联规则的研究是数据挖掘的重要内容之一,现行的关联规则挖掘算法大多只针对单一数据库进行挖掘,但是实际应用中,往往碰到多个数据库的情况,由于单一数据库和多数据库的不同
现阶段计算机硬盘以及其他大容量存储介质代替了纸张成为信息存储的主要方式,电子文档信息的安全性成为一个至关重要的问题,需要加密技术和认证技术相结合,实现电子文档的存
随着Internet的大规模普及,信息量迅速增长,用户要在海量的信息中找到自己所需要的信息,就像大海捞针一样困难。如何从大量繁杂的文本信息中获取有用的信息?文本分类就是实现它
近年来,我国石油行业信息化建设发展迅速,但针对石油领域的文本聚类研究却寥寥无几。现有聚类技术大多是面向综合文本的研究,对主题信息的聚类研究尚不完善,因此研究和开发专业的
GIS-T(交通地理信息系统)是GIS应用的一个重要的方向,GIS-T的发展越来越受到学者和交通管理者的重视。GIS-T数据模型的发展需要迎合先进技术,GPS、互联网的普及使得GIS-T数据