一种基于案例推理的多agent强化学习方法研究

来源 :机器人 | 被引量 : 0次 | 上传用户：lydia1122

【摘要】

：

提出一种基于案例推理的多agent强化学习方法.构建了系统策略案例库,通过判断agent之间的协作关系选择相应案例库子集.利用模拟退火方法从中寻找最合适的可再用案例策略,agen

【作者】

：

李珺潘启树洪炳殚

【机构】

：

哈尔滨工业大学计算机科学与技术学院

【出处】

：

机器人

【发表日期】

：

2004年期

【关键词】

：

多agent强化学习 Q学习策略再用基于案例的推理追捕问题 multiagent reinforcement learning Q-learning po

【基金项目】

：

国家高技术研究发展计划(863计划);

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出一种基于案例推理的多agent强化学习方法.构建了系统策略案例库,通过判断agent之间的协作关系选择相应案例库子集.利用模拟退火方法从中寻找最合适的可再用案例策略,agent按照案例指导执行动作选择.在没有可用案例的情况下,agent执行联合行为学习(JAL).在学习结果的基础上实时更新系统策略案例库.追捕问题的仿真结果表明所提方法明显提高了学习速度与收敛性.

其他文献

论个人住房贷款发展的困境、原因及化解

近期,国内商业银行出现了普遍的“额度荒”问题,大多研究认为这一现象是周期性和短期性的。但其实是商业银行经营的内外环境发生了根本的变化,如存贷款利率市场化加速,传统的

期刊

个人住房贷款经营环境利率市场化政策性住房银行Individual housing loanBusiness environmentInterest

我国保障性住房分配风险防控研究--以江苏省淮安市为例

保障性住房居住成本低、买卖价差大,在保障性住房分配中容易出现腐败、分配不公等情况,因此保障性住房分配一直是住房保障工作的重点,如何防范在分配中的各种风险将会影响到

期刊

保障性住房住房分配风险防控Affordable housingHousing allocationRisk prevention and contro

Zweym ller双锥面螺旋臼联合PLUS-SL微创柄治疗股骨头坏死继发骨关节炎疗效分析

目的：探讨使用Zweymüller双锥面螺旋臼联合PLUS-SL微创柄治疗股骨头坏死继发骨关节炎疗效分析。方法：使用Zweymüller双锥面螺旋臼假体联合PLUS-SL微创柄治疗股骨头坏死继发骨

期刊

股骨头坏死骨关节炎螺旋臼微创柄femoral head necrosisosteoarthritisspiral mortarmicro-inva

尘粒引起人支气管肺淋巴结巨噬细胞的凋亡和bcl-2表达

目的　研究人支气管肺淋巴结尘细胞和大鼠腹膜腔巨噬细胞吞噬碳粒后的凋亡和bcl 2表达 ,探讨巨噬细胞凋亡与淋巴结结构变化之间的关系。　方法　取人支气管肺淋巴结 ,作石蜡

期刊

凋亡bcl-2尘细胞巨噬细胞支气管肺淋巴结人

多阶段输电网络最优规划的模拟植物生长算法

为解决输电网络规划中的多阶段之间的耦合问题,基于待选线路具有规划期间不建设或只能在某一个阶段建成并在后续阶段一直使用的特点,提出了以待选线路为决策变量,规划阶段序

期刊

电力系统输电网络多阶段规划最优规划动态决策模拟植物生长算法随机搜索

用于在线签名认证的特征提取和个性化特征选择方法

提出一种在线签名认证中的特征提取和特征选择的方法.采用一种F-Tablet手写板采集签名数据.该手写板的特点是不仅可记录签名时的字形信息(x,y)序列,还可记录签名时的五维力信

期刊

在线签名认证特征提取特征选择特征重要性五维力支持向量机(SVM)

电网地磁感应电流在线监测系统

磁暴在输电线路产生的地磁感应电流(GIC)变化频率为0.0001Hz～0.01Hz,并且具有随机性、持续时间为几分钟到几小时等特征。针对国内电网发现的GIC问题,提出了建立电网GIC监测网络系统的设想,给出了电网GIC信号的提取方法及数字信号处理算法,并研制了监测电网GIC的新型装置。试验和实际应用表明,所研制的装置能有效测量GIC这种准直流、随机性的信号,并具有数据处理量少、节约存储空间等优点。

期刊

地磁暴GIC监测霍尔传感器软硬件设计

异丙酚对内毒素血症鼠NO、SOD及MDA水平的影响

目的研究异丙酚对内毒素血症大鼠体内一氧化氮(NO)、超氧化物歧化酶(SOD)、丙二醛(MDA)的影响.方法72只Waster雄性大鼠随机分为三组,对照组(C组),内毒素组(L组)和异丙酚+内毒

期刊

二异丙酚内毒素血症一氧化氮丙二醛超氧化物歧化酶

两种激光切割超音速喷嘴结构设计与辅助气体流场分析

对简易折线缩放喷嘴和基于霍耳(Hall)设计方法的复杂喷嘴外流场中压力分布,以及马赫盘位置变化等特性进行了分析。详细比较了这两种喷嘴气流场动力学性能之间的差别,揭示了两

期刊

激光技术激光切割超音速喷嘴流场分析流体动力学

空间相机碳纤维支撑结构改进及拓扑优化设计

碳纤维复合材料杆件密度小、比刚度高、线胀系数小,因此,碳纤维杆件支撑结构是空间相机框架常用支撑结构.采用螺纹胶接方法对碳纤维复合材料与金属件结构预埋工艺进行了有效

期刊

空间相机碳纤维预埋工艺拓扑优化设计

一种基于案例推理的多agent强化学习方法研究

其他学术论文