基于强化学习的多智能体协作与应用的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:Tianxudong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多Agent系统(Multi-Agent System,MAS)是分布式人工智能(Distributed Artificial Intelligence,DAI)的一个主要领域,而多个Agent之间如何进行组织协调和协作以实现共同目标是MAS研究的核心问题。解决MAS的协作问题有许多方法,Agent的学习方法是其中很重要的一种。通过Agent的学习实现MAS的协调与协作是一个非常值得研究、具有挑战性的课题。 本文将研究如何通过强化Q-学习方法来实现多Agent之间学习与协作,主要工作包括: ●单Agent行为搜索方案的优化多Agent系统的构成单元是一个个单独的Agent,很多个Agent的独立学习构成了多Agent系统的学习过程,那么要使用学习方法来实现多Agent之间的协作学习,首先要强化单个Agent的学习能力。原始的Q学习中采用的是非直接搜索的行为选择方法(如ε-greedy、Boltzmann 策略),Wiering在其论文中又提出了直接搜索的方法。本文在以上工作的基础上探索了一种能够平衡Agent行为选择中探索与利用关系的方法,利用遗忘函数作为加权系数,使Agent在刚开始搜索环境的时候能够按照人为制定的搜索方法对环境进行充分的探索,而在学习一段时间后则能使行为选择逐渐趋向于贪婪策略。实验证明,这种方法较一般行为选择策略,能更好的加速单Agent的学习进程。 ●基于知识共享的多Agerlt学习方法传统的多Agent系统中,每个Agent在完成自己独立的学习过程之后,并不能够将自己学到的知识与其他Agent共享。本文研究了一种多Agent知识共享的方法(Q Table Sharing,Q表共享法)来提高整个MAS系统学习能力和性能。在状态空间较小时利用Q表来共享知识;在状态空间较大时,利用Q表进行知识的暂存与共享空间,利用小脑关节模型来完成最终Q值的存储。实验证明,当有多Agent同时学习时,这种方法不仅能强化每个组成Agent的学习能力,还可以提升多Agent系统的整体性能,学习效果也较单Agent的学习要稳定很多。 ●基于叠加法的小脑关节模型(Cerebellar Model Articulation,CMAC) 强化学习算法传统的CMAC都是利用哈希方法来解决输入空间到记忆空间的映射冲突,减少输入维数增加带来的记忆空间急剧增大的问题,并且网络的学习误差只被分担到了泛化参数(C)个单元上。本文采用了一种新的基于叠加法的状态空间映射方法,可以使CMAC网络在输入向量维数很大的时候不仅可以避免映射冲突、减少网络的存储空间,而且学习误差也被分担到n*C个单元上。实验证明,这种方法能有效的与Q学习相结合解决大状态空间的Q值存储问题。 ●方法的验证与应用本文通过Agent的路径寻优问题来检验以上方法的有效性,将其应用在RoboCup3D(Robot Soccer Cup Three Dimension)的3v2局部协作问题上,取得了很好的效果。此外,本文还讨论了方法在其他协作、学习问题上的应用前景。
其他文献
智能交通是计算机视觉、机器学习、交通运输领域的热门课题,它涉及到多个学科的交叉,具有重要的学术研究价值和极强的实用背景。本论文的研究背景是“混合交通下行人安全状态
由于网络技术和多媒体技术的发展,人们希望手机能够接入互联网,传播人们喜闻乐见的多媒体信息,多媒体短信息(MMS: Multimedia Messaging Service)应运而生。目前,MMS业务发展
以人为本的社会需要以人为本的计算,应运而生的普适计算必将极大的丰富和便利人类的生活。普适计算通过将普适计算设备嵌入到人们的日常生活环境中,使人们每时每刻都能享受到计
随着网络的普及,电子邮件与人们的工作生活联系日趋紧密,随之而来的垃圾邮件问题日益严重。目前,基于接收端的过滤技术被广泛应用。但是在接收端处理垃圾邮件无法避免垃圾邮件对
数据库管理系统(DBMS)软件是信息系统的核心,是国家战略必争的高新技术。实现信息化带动工业化需要自主产权DBMS,提高我国企业创新能力和市场竞争力需要自主产权DBMS,国家信息安
作战指挥是一个复杂的系统工程,在作战指挥过程中,指挥员必须根据敌我双方的态势,快速、准确地作出决策,以取得战争的主动权。然而,现代战争是立体战争,战争的突发性增加,破坏力增大
科技文献作为记录科学技术信息的载体,对其进行数字化是建设信息化社会的迫切需要。目前广泛应用的OCR (Optical character recognition,光学字符识别)技术可以将印刷体文献
在研究与工程领域中,有许多问题通常需要经过几个星期甚至几个月的计算才能得出结论,为进行这样的工作需要一个能在长时期内提供大量计算能力的环境,这就是所谓的HTC (High Thro
随着计算机网络和通信技术的发展以及多媒体应用的深入和普及,VoIP技术已经成为通信领域的关键技术之一。本文的目的是通过研究VoIP中的信令协议SIP,重点是SIP协议中信息处理的
网络结构模型构建是P2P核心研究领域之一,其中结构化P2P系统把计算机组织成一个具有良好的连接和路由规律的结构化拓扑来进行资源共享和查询,但是网络环境的动态性导致系统维护