基于强化学习的多智能体协作实现

来源 :浙江工业大学学报 | 被引量 : 0次 | 上传用户:johnsontai1230
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中.但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不能直接用于多智能体的协作学习问题.本文提出了多智能体协作的两层强化学习方法.该方法主要通过在单个智能体中构筑两层强化学习单元来实现.第一层强化学习单元负责学习智能体的联合任务协作策略,第二层强化学习单元负责学习在本智能体看来是最有效的行动策略.所提出的方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明所提出的方法比采用传统强化学习方法
其他文献
乡村振兴战略与农业现代化治理融合发展是补齐农业农村发展短板、实现农业农村现代化的关键环节。二者的融合发展不但有助于实现农业农村现代化,而且在提升农业国际竞争力、激
在法院集体作为审判权独立运行主体、审判呈现高度行政化状态并且司法机制具有相对明显大陆法系特征的审判过程中,我国法官的角色扮演及其行为实际上处于一种难以确定状况—
期刊
分析比较了暖温带中部至西南部 2 0个落叶阔叶林群落类型的物种多样性 ,结果表明 :1)一般情况下 ,乔、灌、草 3个层次的物种丰富度 (Sp)和多样性指数 (D和 H′)多为乔木层 <
建立一种简便易行的测定聚甲基丙烯酸酯胰岛素纳米粒中游离胰岛素含量方法.用Nanosep OD100C33超滤膜分离纳米粒和游离药物,在276 nm处测定药物的吸光度,建立胰岛素含量测定
辽东栎(Quercus liaotungensis)是中国特有的栎林树种,也是中国暖温带落叶阔叶林的主要优势树种之一。卯钉菇(Gomphidius viscidus)和臭红菇(Russula foetens)是在自然环境中与
针对OLAM兼有OLAP多维分析的在线性、灵活性以及数据挖掘对数据处理的深入性特点,在医疗保险系统中设计并实现了一个OLAM应用模型.该模型使用浙江省某市医疗保险数据库中2005
溪流倒木是指在河流中长度大于1m、直径大于10cm的死木。溪流倒木在森林河流中(特别是较小的河流中)是一个常见且重要的结构成分。该文综述了近30年溪流倒木的研究成果(主要来自北美),总结溪流倒木在河流形态、碳循环、泥沙与养分拦截、水生生境的形成、水生生物多样性等方面的生态功能,倒木的时间动态性与空间变异性,以及干扰(包括自然干扰与人为干扰)与倒木存留量及分布的关系。此外,该文也探讨了溪流倒木的生态
随着城市建设的高速发展,出现了不少在地铁隧道上方的基坑开挖,特别是相互间距离很小的情况,如何采取有效措施控制隧道的变形,是值得摸索和研究的课题.在已经完工的上海东方
柱外部粘贴碳纤维布(Carbon fiber reinforced polymer,以下简称CFRP)加固,是一种安全、经济和快捷的加固方法,当今已经广泛地应用于工程中.钢筋混凝土(Reinforced concrete,以