基于进化算法的多智能体合作学习

来源 :山东大学学报(工学版) | 被引量 : 0次 | 上传用户:freddyzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习的收敛速度随状态-动作空间的维数呈指数增长,因此在涉及大的状态空间时,强化学习算法的收敛速度非常慢以至不能满足应用需求。在许多应用环境中,若智能体之间存在合作关系,借助多个智能体进行分布式学习可以部分解决这一问题。利用进化算法,设计了智能体繁殖、消亡等操作,使得子代智能体能够继承父代智能体在状态空间的方向信息,从而更快地找到状态-动作空间的有效更新。仿真实验表明:算法比已有的强化学习方法具有更高的搜索效率和收敛速度。 The convergence speed of reinforcement learning increases exponentially with the dimension of state-motion space, so the convergence speed of reinforcement learning algorithm is very slow and can not meet the application requirements when it involves large state space. In many application environments, where there is a partnership between agents, distributed learning with multiple agents can partially solve this problem. Using evolutionary algorithm, the operation of agent multiplication and extinction is designed, so that agent of future generation can inherit the direction information of agent in state space, so as to find the effective update of state-action space more quickly. Simulation results show that the algorithm has higher search efficiency and convergence speed than the existing reinforcement learning methods.
其他文献
加强空区顶板管理保证矿山安全生产孟凡廷韩纪峰侯杰(山东华玉集团平邑石膏矿)中图分类号TD327.2空区顶板地压活动常给矿山生产造成严重危害,甚至成灾,它直接破坏矿山生产和威胁生产人员
普雷米尔(Premier)矿位于南非比勒陀利亚市东38km,是目前世界上最大的管状钻石矿。矿体理深380m,被75m厚的倾斜辉长岩分开。矿山于1903年投产,首先用露天开采,后转入地下开采。地下
针对过热汽温被控对象的特点,设计了相应的基于神经网络的自抗扰控制器,分析了自抗扰控制器与神经网络结合的方式以及神经网络训练样本提取与训练方法,将该控制器成功应用到
该文结合深圳高新技术产业发展的历程,总结中国高新技术产业发展的经验和教训,指出科技产业化是中国高新技术产业发展的必由之路.同时从经济学的角度阐述了经济体制对高新技
该文试图在借鉴代理理论的基础上,深入剖析国有企业委托理关系,联系中国国情,提出一种培育和造就中国职业企业家的理论思路.
该文以"顾客服务"作为选题,运用理论联系实际的方法,在顾客服务方面积极探索国内企业提供一种新的营销思路和科学系统的运作方法,以协助中国企业界的先行者们在未来的市场竞
近年来,连锁商业在国民经济中的作用和地位日益突出,其发展牵动着较多领域与行业,连锁商业具有强大的生命力,其根本原因是连锁商业以其新的经营特点,适应了现代大工业发展和消费需
随着交通的日益便利,即使身在内陆地区,也可随时吃到鲜活的海鲜。但在琳琅满目的餐厅菜肴中,海鲜和火锅,水与火的融合还是较为罕见的。海塘海鮮自助火锅餐厅将两者结合在一起,给人以耳目一新之感。  海塘海鲜自助火锅位于王家园胡同内,这里隔绝了二环路的拥堵与喧闹、四周部分未拆除的平房,还遗留着些许老北京胡同的记忆。香槟色的门框,朱红色的地毯,还有门口等位区深褐色的藤椅,茂盛的绿植,环境朴实简约,清新自然。步
建设成国内知名的汽车零备件制造商是XH集团的发展战略目标。PL公司作为国内汽车三滤的主要生产企业,随着国内汽车零部件产业发展,跨国汽车零部件企业掌握大量核心技术,争先恐后
该论文是作者在对市场动态的敏锐观察、以及对中国当前经济、企业改革的深刻思考的基础上,结合大量的企业实践所形成的具有应用性质的研究成果.该文的中心论题就是探讨在中国