基于强化学习的激光导航AGV控制方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:chaizw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
AGV(Automatic Guided Vehicle,自动导引车)作为柔性的自动化搬运设备对智能物流和工业4.0的发展具有重要的促进作用。其中路径跟踪是AGV实现高精度控制的核心技术,也是AGV在很多工业领域推广应用的难点。为了解决未知参数带来的建模困难以及避免大量的人工试验工作,本文针对激光导航AGV(Laser-guiding Automatic Guided Vehicle,LAGV)设计了基于深度强化学习的路径跟踪控制算法,并通过引入元学习使控制算法发现学习的规律,从而在面对参数波动较大的LAGV时可以快速的实现路径跟踪。本文的主要研究工作如下:(1)基于改进的深度强化学习路径跟踪控制算法设计。基于对LAGV路径跟踪系统的构建,并将问题建模为马尔科夫决策过程(Markov Decision Process,MDP)。使用演员评论家框架(Actor-Critic)解决路径跟踪的MDP模型中状态空间、动作空间的连续性问题,并利用具有重要采样技术和良好探索性的近端优化策略算法作为控制算法的策略梯度,最后结合有限步优势估计与高斯动作输出来实现LAGV的路径跟踪控制算法。实验结果表明,相比于PID和其他强化学习算法,本文的控制算法能够更加精确稳定地实现路径跟踪。(2)基于元强化学习的路径跟踪控制算法。在本次研究中结合Actor-Critic框架设计了一种元状态评论家(Meta State Critic,Meta-SC)作为元学习网络,该网络由评论家(Critic)网络和具有记忆功能的任务演员编码器网络(Task Actor Encoder Network,TAEN)构成。通过同步更新的方式将路径跟踪任务的特性同时存储在TAEN和Critic网络中,实现Critic对任务层面的状态值函数进行估计,使得Meta-SC能够建立LAGV路径跟踪的核心价值网络,从而在面对参数波动较大的LAGV进行路径跟踪时,利用以往的核心价值经验来指导对应的演员(Actor)网络实现少量样本的快速学习,达到加速算法训练过程的目的。实验结果表明,相比于传统的强化学习和与模型无关的元学习(Model-Agnostic Meta-Learning,MAML),本文的Meta-SC元学习算法能够更大程度的提升训练效率。
其他文献
黑龙江省资源的开发利用极大地加速了地区经济增长。然而,随着经济的快速发展,出现了资源的过量消耗、环境破坏、经济发展衰退等问题。在发展过程中,人们越发认识到生态效率的重要性。黑龙江省的12个地市间产业结构、生态投入水平和基础设施建设等方面存在巨大差异,生态效率发展水平也不同。在此背景下,研究黑龙江省生态效率的时空演变规律,有利于切实提高黑龙江省生态效率的发展水平。本文首先归纳总结生态效率与空间效应的
随着网络的发展及其在各领域的广泛应用,连接到网络的设备数量不断增多,网络流量呈指数增长,导致网络能耗巨大且逐年增长。因此,提高网络能耗效率、降低网络能耗对于节能减排、降低网络运营成本等均具有重要意义。同时,各种新型的网络应用和业务的种类也在不断增多,产生了大量带有业务特征的数据流,网络需要根据它们的特征为其合理地分配网络资源,保障各自的服务质量(QoS)要求。软件定义网络(SDN)技术的发展和应用
具有非局部扩散的捕食现象是种群生态学中非常重要且普遍的现象,可以用非局部扩散的捕食模型来描述.行波解可以刻画物种的发展、迁移和入侵等过程,揭示物种数量的变化规律.因此,研究具有非局部扩散的捕食模型的行波解的存在性与稳定性具有重要的理论意义和实用价值.本文分为四部分.第一章,介绍行波解的发展现状及本文的主要工作.第二章,研究具有非局部扩散的三物种合作捕食模型行波解的存在性和稳定性,其中u(x,t)和
南方电网综合能源股份有限公司(以下简称"公司"),是中国南方电网有限责任公司(以下简称"南方电网公司")控股的从事综合能源服务业务的专业子公司。其前身为南方电网综合能源
会议
课程实施是将课程改革和方案付诸于实践的过程,是课程改革的关键环节。可以说,如果没有课程实施一切课程计划和改革都是空谈。随着新一轮基础教育课程改革的不断深入,农村小
存货跌价准备在资产减值准备中扮演着重要的角色。在财务报告中,资产负债表与利润表存在着勾稽关系,互相联系。在资产负债表中,存货跌价准备作为存货项目的抵减项,影响着企业
随着全球经济的不断发展,汽车产业也朝着电动化、智能化、网联化、共享化等方向不断发展。新能源电动汽车在最近几年发展迅猛,在全球掀起了一股新浪潮,在中国,国家对新能源车辆也给与了大力支持,国内汽车厂商也纷纷开始大力发展新能源汽车。虽然新能源汽车数量在持续增加,但是新能源车辆故障率一直居高不下,新能源电动汽车自燃事故时有发生,因此建立一个新能源汽车故障管理系统变得尤为重要。本文中的新能源汽车故障管理系统
党的十九大报告提出了中国发展新的历史方位,城市活力发展研究随之成为政府和学术界热点的研究领域之一。2018年10月,习近平总书记在视察广东省期间,曾明确要求广州实现“老城市新活力”,广州省应提升城市的综合实力,并在国际化方面有所建树。习总书记充分了解我国城市的发展规律,能充分认识到我国城市发展的新趋势,从而对广州这样的一线城市提出了这一项重大战略课题。为了探讨新时代城市活力的影响因素以及影响机制的
在分布式网络架构下,网络设备在进行业务流量的路由转发过程中,依据邻居节点交互信息,独自完成网络的控制与转发工作。这种控制与转发紧密耦合,设备间各自为战的网络架构在进行网络管理配置,网络灵活化部署时都面临巨大挑战。软件定义网络(Software Defined Network,SDN)通过解耦网络的转发与控制层面,设立集中化的控制中心,能够全局性的获取网络拓扑信息,全局化统一管理网络。新一代的5G(
近年来,各类应用软件层出不穷,软件开发规模越来越庞大,软件测试前期的准备工作作为软件正式投入使用前,保证软件高质量和高可靠性的重要手段,变得越来越重要,测试用例自动生成成为软件测试前期阶段降低测试成本和提高测试效率的关键和难点。高效的测试用例自动生成技术旨在生成尽可能少的测试用例,尽可能的覆盖软件测试需求。因此,测试用例生成技术的难点在于如何自动生成高覆盖率的测试用例数据,以及如何确定有效的测试停