一种基于多智能体强化学习的智能装配系统

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:jscumt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在工业4.0与中国制造2025的大环境背景下,智能制造与智能工厂已经成为了影响生产力水平与国民经济的国家重点发展对象。智能装配系统通常指以协作机械臂为基础,面向个性化、多样化装配任务的多智能体系统。相比于单机械臂的操作,协作机械臂存在更为复杂的运动干涉问题,传统控制方法的计算量庞大,难以满足趋于多种类的现代工业需求。多智能体强化学习为解决机械臂协同装配的问题提供了新的解决思路。本研究提出一种基于多智能体强化学习的多机械臂智能装配系统,旨在通过端到端的学习过程使协同机械臂相互配合完成不同类型的装配任务,因此使用少量设备便可以完成多种装配任务。针对协同机械臂装配任务,本文在MADDPG算法的基础上提出改进,通过引入LSTM与好奇心机制改善了多智能体系统任务的部分观测马尔可夫性以及稀疏化奖励的问题。同时,利用Gym开发工具与MuJoCo物理引擎建立了面向多智能体系统的仿真环境用于实验,包含了完整的控制规则以及场景任务,并对奖励函数实现分段式分解的处理方法,提升学习效率。然后将改进后的MADDPG算法在自定义仿真环境中进行实验以验证算法以及环境的有效性。通过在三个实验场景下进行验证,本文所用改进后的MADDPG方法在两种实验场景下的多机械臂的协同装配问题上取得了理想效果,相比原始MADDPG算法在获取奖励上分别有16.83%以及37.56%的提升。
其他文献
情态动词用于表达说话者的主观态度和看法,在日常交际和写作中被人们广泛使用。英语情态动词CAN在美国当代英语语料库(COCA)中共1228608,其使用频率在主要英语情态动词中最高,历来是研究的热点。以往研究从CAN的语义特征、语义范畴、NP+CAN+VP的句法语义特征等方面分析了其语义模糊性问题,但就同一情态动词CAN在不同句法环境中如何影响句子动作的实现,却鲜有研究。本研究借鉴认知语法中的认知入
词汇是学生语言能力发展的基础,没有了词汇,语言接受和表达都受到极大的限制。随着新课程改革的推进,高中英语新课程标准对词汇教学也提出了更新更高的要求,然而目前高中英语
【目的】临床研究表明,疼痛可能会影响肿瘤患者的生存期;动物实验表明,疼痛可能会促进肿瘤的进展。然而,对于疼痛促进肿瘤发展的机制仍不明确。为了探寻疼痛是否通过改变肿瘤
近年来,随着语言学与其他学科之间跨学科研究的不断深入,有比以往更多的学者开始关注如何运用认知语言学的概念隐喻理论来分析政治语篇。自习近平总书记履新以来,已有大量针对其讲话及作品的研究,但是从比例上来看,对其讲话的隐喻研究仍然处于起步阶段。本文通过参照由人民网建立的当前最具权威性的“习近平系列重要讲话数据库”,尝试对存在于习近平总书记讲话中的隐喻进行更深层次的分析。此外,本文试图通过上述分析对其政治
随着素质教育在我国中小学的不断深入,普通高中的教育也在不断的改革和发展,作为素质教育的重要组成部分,普通高中生涯教育的相关理论和实践也在不断的丰富。高考改革是在普通高中实施生涯教育的新的现实背景,2014年9月国务院颁布《关于深化考试招生制度改革的实施意见》之后上海和浙江先行出台高考综合改革方案,其他省市也相继出台自己的高考改革方案。此次高考改革为普通高中的生涯教育开展带来了新的任务和挑战,同时,
学位
随着世界各国之间的联系日益紧密,新闻所涉及的广度也不断延伸。各国读者对新闻的涉猎范围不再仅限于本国的媒体,而是希望了解世界的局势,各领域专家对于特定事件的洞见。新闻外刊是了解世界声音的一项重要途径,也是促进中西方信息沟通与交融的有效手段。新冠疫情无疑是近两年来新闻媒体的热点话题,本次翻译实践报告选取了《经济学人》中以“新冠疫情之后的世界”为主题的系列文章。基于英语新闻翻译“忠实、通顺”的原则,并结
硅材料是目前电子信息产业、新能源及绿色能源光伏产业的主体功能材料,其在航空航天工程、轴承太阳能面板、集成电路、大功率激光器、传感器等领域都得到了广泛的应用。但是随着硅材料的应用日益广泛,其在许多应用场合产生的摩擦、磨损、黏附等问题也逐渐引起了人们的重视。为此,本文在单晶硅表面制备单层及多层石墨烯薄膜,通过实验手段结合理论分析,探究石墨烯薄膜在单晶硅表面的减磨润滑作用,为硅器件表面的润滑提供一种新的
Android作为被广泛使用的移动操作系统,相应的应用程序在数量上持续快速增长,同时面临着诸如数据窃取、盗版应用等严重的安全威胁。在攻与防的博弈中,新的攻击技术不断出现且攻击方式也愈来愈多样化,现有保护方案无法对Android应用起到应有的保护效果。基于上述背景,为提高Android应用程序的安全性,本文提出了一套抵抗攻击者使用逆向工程技术对Android应用进行恶意破解的保护方案。具体包括以下三
网络平台实施限制交易行为越演越烈,我国反垄断法在互联网领域存在多处适用困境。相关市场界定上,法院缺少对市场选取的基本定性;假定垄断者测试法难以适用于网络平台;市场支配地位认定方面,市场份额作用力下降且计算标准不明确;滥用市场支配地位方面,对滥用行为的正当性分析过于简单。针对上述问题,可以采取如下措施。相关市场界定上,法院应当防止滥用双边市场理论,尽量回归单边市场思维解决,接受互联网领域相关市场边界