基于进化算法的多智能体合作学习

来源 :山东大学学报(工学版) | 被引量 : 0次 | 上传用户：freddyzhu

【摘要】

：

强化学习的收敛速度随状态-动作空间的维数呈指数增长,因此在涉及大的状态空间时,强化学习算法的收敛速度非常慢以至不能满足应用需求。在许多应用环境中,若智能体之间存在合

【作者】

：

王云王俊韩伟

【机构】

：

南京财经大学信息工程学院,

【出处】

：

山东大学学报(工学版)

【发表日期】

：

2010年06期

【关键词】

：

多智能体方向信息空间的维数仿真实验状态空间进化计算进化方法二值图像问题环境灰度图像

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习的收敛速度随状态-动作空间的维数呈指数增长,因此在涉及大的状态空间时,强化学习算法的收敛速度非常慢以至不能满足应用需求。在许多应用环境中,若智能体之间存在合作关系,借助多个智能体进行分布式学习可以部分解决这一问题。利用进化算法,设计了智能体繁殖、消亡等操作,使得子代智能体能够继承父代智能体在状态空间的方向信息,从而更快地找到状态-动作空间的有效更新。仿真实验表明:算法比已有的强化学习方法具有更高的搜索效率和收敛速度。 The convergence speed of reinforcement learning increases exponentially with the dimension of state-motion space, so the convergence speed of reinforcement learning algorithm is very slow and can not meet the application requirements when it involves large state space. In many application environments, where there is a partnership between agents, distributed learning with multiple agents can partially solve this problem. Using evolutionary algorithm, the operation of agent multiplication and extinction is designed, so that agent of future generation can inherit the direction information of agent in state space, so as to find the effective update of state-action space more quickly. Simulation results show that the algorithm has higher search efficiency and convergence speed than the existing reinforcement learning methods.

其他文献

加强空区顶板管理保证矿山安全生产

加强空区顶板管理保证矿山安全生产孟凡廷韩纪峰侯杰（山东华玉集团平邑石膏矿）中图分类号ＴＤ３２７．２空区顶板地压活动常给矿山生产造成严重危害，甚至成灾，它直接破坏矿山生产和威胁生产人员

期刊

顶板管理矿山安全生产地压活动石膏矿垮落生产人员冒顶事故平邑分类号护顶

普雷米尔矿的矿块崩落采矿法

普雷米尔（Premier）矿位于南非比勒陀利亚市东38km，是目前世界上最大的管状钻石矿。矿体理深380m，被75m厚的倾斜辉长岩分开。矿山于1903年投产，首先用露天开采，后转入地下开采。地下

期刊

采矿法矿块拉底巷道凿岩巷道普雷保护矿柱矿石块度出矿二次破碎炸药单耗

神经网络-自抗扰控制策略的过热汽温控制

针对过热汽温被控对象的特点,设计了相应的基于神经网络的自抗扰控制器,分析了自抗扰控制器与神经网络结合的方式以及神经网络训练样本提取与训练方法,将该控制器成功应用到

期刊

自抗扰控制器神经网络汽温工况变化ADRC过热汽温控制串级控制系统控制精度被控对象扩张状态观测器

我国高新技术产业发展状况及制度分析--从深圳的发展透视我国高新技术产业

该文结合深圳高新技术产业发展的历程,总结中国高新技术产业发展的经验和教训,指出科技产业化是中国高新技术产业发展的必由之路.同时从经济学的角度阐述了经济体制对高新技

学位

高新技术产业风险投资

代理理论与中国职业企业家的形成机制

该文试图在借鉴代理理论的基础上,深入剖析国有企业委托理关系,联系中国国情,提出一种培育和造就中国职业企业家的理论思路.

学位

代理理论职业企业家委托代理团队生产国有企业

市场营销的第四个战场:顾客服务

该文以"顾客服务"作为选题,运用理论联系实际的方法,在顾客服务方面积极探索国内企业提供一种新的营销思路和科学系统的运作方法,以协助中国企业界的先行者们在未来的市场竞

学位

市场营销营销组合策略顾客服务

大商集团在河南区的发展战略研究

近年来，连锁商业在国民经济中的作用和地位日益突出，其发展牵动着较多领域与行业，连锁商业具有强大的生命力，其根本原因是连锁商业以其新的经营特点，适应了现代大工业发展和消费需

学位

连锁商业经营战略资本运作核心竞争力

“海洋搬运工”海塘海鲜自助火锅

随着交通的日益便利，即使身在内陆地区，也可随时吃到鲜活的海鲜。但在琳琅满目的餐厅菜肴中，海鲜和火锅，水与火的融合还是较为罕见的。海塘海鮮自助火锅餐厅将两者结合在一起，给人以耳目一新之感。　　海塘海鲜自助火锅位于王家园胡同内，这里隔绝了二环路的拥堵与喧闹、四周部分未拆除的平房，还遗留着些许老北京胡同的记忆。香槟色的门框，朱红色的地毯，还有门口等位区深褐色的藤椅，茂盛的绿植，环境朴实简约，清新自然。步

期刊

朱红色北京胡同入口即化食材榴莲酥生蚝寒风刺骨令人制作工序盛夏季节

六西格玛在PL公司的应用分析

建设成国内知名的汽车零备件制造商是XH集团的发展战略目标。PL公司作为国内汽车三滤的主要生产企业，随着国内汽车零部件产业发展，跨国汽车零部件企业掌握大量核心技术，争先恐后

学位

六西格玛滤清器汽车零部件质量管理发展战略

"员工股份所有权"的理论与应用研究

该论文是作者在对市场动态的敏锐观察、以及对中国当前经济、企业改革的深刻思考的基础上,结合大量的企业实践所形成的具有应用性质的研究成果.该文的中心论题就是探讨在中国

学位

员工股份所有权员工持股计划股票期权期股经营者持股

基于进化算法的多智能体合作学习

与本文相关的学术论文