基于强化学习的多智能体协作实现

来源 :浙江工业大学学报 | 被引量 : 0次 | 上传用户：johnsontai1230

【摘要】

：

基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中.但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不

【作者】

：

陈雪江杨东勇

【机构】

：

浙江工业大学信息工程学院

【出处】

：

浙江工业大学学报

【发表日期】

：

2004年5期

【关键词】

：

强化学习多智能体系统协作策略马尔科夫过程单元在线学习模型习作协作学习物体 reinforcement learning Q-learning

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中.但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不能直接用于多智能体的协作学习问题.本文提出了多智能体协作的两层强化学习方法.该方法主要通过在单个智能体中构筑两层强化学习单元来实现.第一层强化学习单元负责学习智能体的联合任务协作策略,第二层强化学习单元负责学习在本智能体看来是最有效的行动策略.所提出的方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明所提出的方法比采用传统强化学习方法

其他文献

论中国乡村振兴战略中的农业工程管理创新

乡村振兴战略与农业现代化治理融合发展是补齐农业农村发展短板、实现农业农村现代化的关键环节。二者的融合发展不但有助于实现农业农村现代化，而且在提升农业国际竞争力、激

期刊

乡村振兴战略农业工程创新管理

我国法官自由裁量权:存在、运行及规制

在法院集体作为审判权独立运行主体、审判呈现高度行政化状态并且司法机制具有相对明显大陆法系特征的审判过程中,我国法官的角色扮演及其行为实际上处于一种难以确定状况—

期刊

法官自由裁量权法律选择

欢迎检索查阅2007-2008年《植物生态学报》发表专题论文

期刊

暖温带若干落叶阔叶林群落物种多样性及其与群落动态的关系

分析比较了暖温带中部至西南部 2 0个落叶阔叶林群落类型的物种多样性 ,结果表明 :1)一般情况下 ,乔、灌、草 3个层次的物种丰富度 (Sp)和多样性指数 (D和 H′)多为乔木层 <

期刊

暖温带森林群落物种多样性指数重要值群落总体多样性指数群落动态

UV法测定聚甲基丙烯酸酯纳米粒中胰岛素的包封率

建立一种简便易行的测定聚甲基丙烯酸酯胰岛素纳米粒中游离胰岛素含量方法.用Nanosep OD100C33超滤膜分离纳米粒和游离药物,在276 nm处测定药物的吸光度,建立胰岛素含量测定

期刊

胰岛素纳米粒包封率insulin nanoparticles drug loading efficiency

接种外生菌根对辽东栎幼苗生长的影响

辽东栎（Quercus liaotungensis)是中国特有的栎林树种，也是中国暖温带落叶阔叶林的主要优势树种之一。卯钉菇（Gomphidius viscidus)和臭红菇(Russula foetens)是在自然环境中与

期刊

接种外生菌根辽乐栎幼苗生长影响生物量光合速率蒸腾速率氮磷含量Quercus liaotungensis Seedlings Ectomyc

OLAM技术在医疗保险系统中的应用研究

针对OLAM兼有OLAP多维分析的在线性、灵活性以及数据挖掘对数据处理的深入性特点,在医疗保险系统中设计并实现了一个OLAM应用模型.该模型使用浙江省某市医疗保险数据库中2005

期刊

数据仓库数据挖掘联机分析挖掘data warehouse data mining OLAM

森林溪流倒木生态学研究进展

溪流倒木是指在河流中长度大于1m、直径大于10cm的死木。溪流倒木在森林河流中(特别是较小的河流中)是一个常见且重要的结构成分。该文综述了近30年溪流倒木的研究成果(主要来自北美),总结溪流倒木在河流形态、碳循环、泥沙与养分拦截、水生生境的形成、水生生物多样性等方面的生态功能,倒木的时间动态性与空间变异性,以及干扰(包括自然干扰与人为干扰)与倒木存留量及分布的关系。此外,该文也探讨了溪流倒木的生态

期刊

溪流倒木生态功能倒木时空变异性干扰

基坑开挖对下方近距离隧道的保护

随着城市建设的高速发展,出现了不少在地铁隧道上方的基坑开挖,特别是相互间距离很小的情况,如何采取有效措施控制隧道的变形,是值得摸索和研究的课题.在已经完工的上海东方

期刊

时空效应基坑开挖抗拔桩堆载time-space effect excavation ull-pesist pile oading

CFRP加固大偏压RC柱二次受力时的机理分析

柱外部粘贴碳纤维布（Carbon fiber reinforced polymer,以下简称CFRP）加固,是一种安全、经济和快捷的加固方法,当今已经广泛地应用于工程中.钢筋混凝土（Reinforced concrete,以

期刊

碳纤维布二次受力滞后应变加固carbon fiber reinforced polymer secondary loading strain lag s

基于强化学习的多智能体协作实现

与本文相关的学术论文