基于免模型强化学习的自适应Agent协作规划

来源 :武汉工程大学 | 被引量 : 0次 | 上传用户：jlcclb

【摘要】

：

【作者】

：

万谦

【出处】

：

武汉工程大学

【发表日期】

：

2019年01期

【关键词】

：

Agent协作 JaCaMo Q-learning 任务分配角色

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

面向智能体协作的自适应系统(Multi-Agent Collaboration System,MACS)的设计目的是使得Agent能够实时的响应环境的变化,有效的组织Agent共同完成自适应目标。其中Agent的规划和协作是Agent研究的两个重要方面,研究方法主要包括基于已知环境的逻辑推理和机器学习。基于已知环境的逻辑推理虽然考虑到了变化环境的动态规划问题,但是未知环境下的规划和协作问题却得不到解决。基于机器学习的方法虽然在未知环境下可以通过学习的方法来规划和协作,但是决策效率却没有基于逻辑推理的规划效率高。本文在Agent交互系统Jason和Ja Ca Mo的基础上,结合免模型强化学习机制,提出一种免模型强化学习的自适应Agent协作规划方法。针对ASL(Agent Speak Language)在未知和动态环境下的策略规划问题,首先提出了基于强化学习Q-learning算法来实现ASL模型中Agent的学习和规划。然后在基于Q-learning改进ASL决策最优规划的方法上,针对Ja Ca Mo中关于角色的任务最优分配问题,提出了基于广播机制的角色分配最优算法。最后运用Jason和Ja Ca Mo的改进模型在RCRSS(Robo Cup Rescue Simulation System)仿真场景进行了建模,比较了原模型与改进模型在RCRSS上的运行结果,验证了本论文提出方法的可行性和有效性。本文的研究具有以下创新点:第一,融合了ASL模型规则描述、逻辑推理和强化学习。针对ASL在未知环境下无法决策的问题,本文采取Q-learning算法来动态生成基于目标的最优动作序列,并将该序列用于逻辑推理,改进模型下的Agent既能适应未知环境的变化,执行任务的效率也高。第二,在Ja Ca Mo模型中,针对同角色内Agent的任务分配问题,提出在ASL中已经学习到的奖励值的基础上,对同角色类的Agent进行广播。因为每一个Agent存有其它Agent的奖励值,所以Agent在某一时刻可以选择执行任务的最优方式,整个系统的执行效率也能得到很大提高。

其他文献

BOG处理与LNG再气化过程的能量匹配研究

液化天然气(LNG)运输,储存等过程中,由于储罐和管道达不到绝对的隔热,不可避免的会产生蒸发气(BOG)。BOG的存在会造成储罐压力升高,对储罐结构造成破坏,存在较大的安全隐患,

学位

BOG再冷凝LNG冷能利用BOG燃烧发电净现值

单目相机图像深度和位姿估计的研究与应用

推理场景的立体结构是计算机视觉中常见的任务,其基本目的是根据传感器获取的平面信息推理出场景的立体结构。已有很多基于双目相机或距离传感器的研究用于解决这类问题。基于单目相机的方法由于只能利用一些局部的二维信息,在推理场景的立体结构时会遇到更多的挑战。但这类方法更少地依赖传感器,能利用有限的信息解决问题,所以非常具有研究价值。我们需要解决的两大问题是把二维信息变成局部立体信息并推理这些局部立体信息的关

学位

深度估计位姿估计单目相机深度学习语义分割

PC表面氧化石墨烯纳米复合膜层的制备及环境稳定性研究

聚碳酸酯（Polycarbonate,PC）透明件性能优异,应用前景广阔,随着透明件向国防和航空航天等高端领域的扩展,对制品的使役安全与寿命提出了更高的要求。但PC在服役过程中受到辐照

学位

聚碳酸酯氧化石墨烯聚多巴胺有机硅涂层环境稳定性

基于离散元法的RLCA型团聚体分散行为数值模拟研究

在聚合物基体中均匀混合纳米粉体是提高复合材料物理和机械性能的重要手段,但粉体中纳米颗粒极易在黏附力的作用下形成团聚体,严重阻碍了纳米尺度颗粒优异性能的发挥。因此,

学位

反应控制团簇凝聚模型黏附性颗粒团聚体表面能分散行为离散元法

煤粉的助磨及其对燃烧特性的影响研究

煤炭是我国水泥工业的主要燃料,据统计,2019年我国水泥工业煤炭消耗约为1.95亿吨标准煤。煤炭粉磨是能耗高且效率较低的过程,其粉磨年均单位电耗约为30～32k W·h·t-1,提高煤

学位

煤粉助磨剂作用机理燃烧特性

基于深度学习的场景结构化描述方法研究

场景结构化描述技术是在人工智能以及大数据的背景下衍生出的一项重要技术,基于深度学习的场景结构化描述具有重要的应用研究价值。该技术是为了将视频场景中的关键信息自动化地以标签的形式结构化描述出来,使计算机能够理解视频内容并存储有意义的信息。目前,人们对于场景结构化描述的研究主要停留在自然语言处理的层面,通过视频的机器翻译来实现人与计算机之间的信息交互。但是由于视频的无结构化性,视频内容信息的复杂性,视

学位

场景结构化描述计算机视觉场景分类目标检测与识别对象空间关系

专利不正当行为的法律规制研究

我国专利制度对于促进科技进步和经济发展、增加企业和国家的综合竞争力具有重要的作用。但随着市场经济的发展,市场竞争的加剧,我国实践中已经出现了很多滥用专利申请制度,欺骗专利审查员意图获取专利授权的非正常的专利申请行为。非正常的专利申请行为不仅严重影响了专利局审查专利的质量和效率,而且扰乱了正常的市场竞争,破坏了诚实信用的专利申请氛围。实践证明,虽然我国已经开始关注并着手解决此类问题,并积极推进相关规

学位

专利不正当行为诚实信用原则信息披露义务

成品油减阻剂的设计与结构分析

随着社会经济和石化行业的迅猛发展,社会对石油产品的需求日益增大,而管道运输作为石化产品运输方式的重要组成部分,也面临满负荷运行的压力。为达到减阻增输的目的,在管道中

学位

减阻剂Ziegler-Natta催化剂竞聚率旋转圆盘

多元数据变换逼近算法及应用研究

Haar定理指出多元函数插值的可解性与结点组之间的关系,关于多元函数插值问题中的结点组与函数应用的选择问题,引入添加变换的方法,进而提出数据变换逼近思想:从给定插值结点

学位

数据变换数值逼近最优外部中轴分叉定位算法

多级孔MnOx/ZSM-5系列催化剂的制备及其低温NH3-SCR性能研究

氨选择性催化还原（NH3-SCR）技术是目前应用最广泛的固定源烟气脱硝技术,该技术高效稳定,其核心是催化剂,目前商用的SCR脱硝催化剂是钒钨钛V2O5-WO3（Mo O2）/Ti O2催化剂,该催化剂

学位

多级孔结构NH3-SCR锰氧化物ZSM-5分子筛

基于免模型强化学习的自适应Agent协作规划

与本文相关的学术论文