Actor-Critic强化学习方法及在船舶自动靠泊中的应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户：cyc2006

【摘要】

：

【作者】

：

张皓然

【机构】

：

北京交通大学

【出处】

：

北京交通大学

【发表日期】

：

2021年01期

【关键词】

：

Actor-Critic方法船舶自动靠泊示教强化学习分布失配问题

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来随着船舶执行的任务越来越复杂,人们对欠驱动船舶自动控制系统提出了更高的要求。自动靠泊系统是实现高效安全航行所不可或缺的一部分。随着无人船技术的发展,建立高效、准确的智能自动靠泊系统具有重要的实践意义。强化学习方法由于具有解决复杂控制与决策问题的潜力,已经成为目前人工智能领域热点研究方向,结合了强化学习与模仿学习的示教强化学习（RLf D）方法通过各类专家策略提供的数据可以提高智能体训练速度和稳定性,有较好地实际应用前景,但同时需要解决分布失配问题。本文针对欠驱动船舶自动靠泊问题,设计了两种结合Actor-Critic和模型预测控制的示教强化学习方法,并从理论和仿真两个方面说明了所提方法具有良好的收敛性并且可以有效解决分布失配问题。仿真结果显示示教强化学习算法相比于典型的无模型Actor-Critic算法学习速度提高了一半以上。本文的主要工作和创新点如下:（1）针对欠驱动船舶自动靠泊问题,在船舶数学建模的基础上将问题描述为马尔科夫决策过程,设计了强化学习解决自动靠泊问题的方案并使用无模型ActorCritic强化学习算法求解,仿真验证了强化学习方法在不依赖数学模型信息和运动规划的条件下可以完成自动靠泊任务。（2）针对无模型Actor-Critic算法收敛速度慢的问题,提出一种结合模型预测控制的RLf D方法。为了解决专家数据不足、专家策略次优的问题,设计了一种Actor-Critic结合模型预测控制的交互式专家控制器,可以为智能体提供专家数据并随智能体学习而同步提高性能。针对所提出的RLf D方法会出现的分布失配问题,在理论分析的基础上提出了两种改进技术。通过仿真说明了所提出的RLf D方法及其改进方法的有效性,相比于无模型Actor-Critic方法加快了训练速度,提高了学习效率。（3）通过理论分析将原强化学习问题转化为受限最优控制问题,在RLf D方法的基础上提出了SGAC算法。SGAC使用智能体与环境交互,专家策略只负责在线提供专家指导。在训练阶段使用对偶梯度法解决优化问题,从理论上分析了所提方法的收敛性。在自动靠泊仿真环境中进行测试,仿真结果说明了SGAC算法可以解决分布失配问题,且学习过程更加稳定,收敛速度更快。与无模型Actor-Critic算法相比,该算法所得到的靠泊轨迹更加平滑。

其他文献

城市轨道交通车站周边共享单车需求预测及动态调配研究

共享单车作为一种新兴的交通方式,为解决公共交通“最后一公里”的问题提供了新的思路。然而目前共享单车管理体系尚不成熟,共享单车在车辆淤积、供需不平衡等运营方面存在诸多问题,在一定程度上影响了社会的发展。城市轨道交通站点周边是共享单车使用的热点区域之一,使用共享单车可以进行交通接驳、通勤、娱乐等不同出行目的,但与此同时也更容易出现共享单车管理问题,由于轨道交通站点的时空异质性导致不同轨道交通站点周边的

学位

城市轨道交通站点共享单车需求预测共享单车调配

散杂货港口短时提货车辆数量预测研究

公路疏运是我国散杂货港口疏港作业的重要方式之一。为保证公路疏运效率,港方通常提前制定车辆提货作业的资源投放计划,但计划由人工制定,容易与实际需求形成较大差距,导致提货高峰期交通拥堵与效率低下等问题。本文通过对散杂货港口短时提货车辆数量的预测,为计划的科学制定提供参考。本文的主要研究内容为:（1）散杂货港口短时提货车辆数量的影响因素分析。通过文献综述、专家访谈与业务分析法识别影响因素,基于随机森林算

学位

散杂货港口公路疏港短时预测空间饱和度

城市轨道交通站点接驳公交线路优化研究

优先发展公共交通是解决城市交通拥堵的重要途径。作为城市公共交通系统的骨干,城市轨道交通承担着主要交通走廊上长距离客流运输任务。然而,单凭干线轨道交通线路所能覆盖的服务范围十分有限,必须为其设计高效的接驳系统以集散客流。“最后一公里”问题是限制轨道交通能力发挥的重要因素。因此,研究城市轨道交通接驳系统优化问题具有现实性和紧迫性。基于这一背景,本文以国内城市轨道交通接驳系统中最常见的固定线路接驳公交为

学位

城市交通接驳公交可达性列生成人工蜂群算法

基于深度学习的刚果假钞检测

随着世界经济的迅速一体化,欧元区的建立,以及近年来非洲经济的增长,国家之间的边境贸易和个人交往变得更加普遍。旅行者总是从其他国家带来大量的纸币。因此,几个国家的纸币交织在一起的可能性越来越大。影响现金交易的最严重问题之一是伪造;数字多色印刷、扫描和图像处理的进步使得制造被称为超级钞票的高清晰度假钞变得更加容易。在刚果民主共和国,伪造的纸币正在成为顺利交易的严重危险。因此,市场上的这种假钞有必要实现

学位

刚果纸币卷积神经网络兴趣区域特征提取HSV模式

面向换电模式出租车的换电站布局规划研究

随着我国出租车电动化进程不断加快,换电模式出租车开始在我国各个城市推广使用。在发展换电模式出租车的过程中,换电站点的合理布局规划是促进换电模式出租车大规模推广的关键。目前针对充换电站的布局规划多是从研究区域总体的充换电需求分布出发,较少考虑电动汽车的充换电行为特征,这不利于充换电需求的准确估计以及充换电站的合理选址布局。因此,本文在剖析出租车换电选择行为机理的基础上,结合出租车历史出行时空分布,通

学位

换电出租车换电选择行为面板数据效应站点布局换电需求有效运营时间站点服务水平

考虑时空因素的通勤定制公交站线规划研究

我国大中城市规模在不断扩大,而城市交通基础建设却滞后于城市发展,居民通勤面临距离过大、时间太长以及效率低下等问题。通勤定制公交作为一类新兴的公共交通模式,可以为居民打造高质量的定制出行服务,同时促进城市公共交通的发展,因此对其进行深入研究具有重要的现实意义。本文的主要工作有:（1）总结了定制公交的概念特征、分类方式以及运营流程,阐述了通勤定制公交在时间和空间上的多种关键影响因素。采用K-means

学位

通勤定制公交时空因素通勤方式选择合乘站点聚类线路规划

超声激励下无界域内空化结构及空化泡动力学行为的研究

随着科学技术的发展,超声空化效应的应用日益广泛。研究发现合理利用空化效应能给人类的生产生活带来极大方便,而液体中的空化结构及空化泡的动力学行为会影响空化效应的强弱。因此,研究超声激励下液体中的空化结构、空化泡的径向运动及空化泡间的相互作用对更好的利用超声空化效应具有一定的指导意义。本文以超声场中的空化结构及空化泡为研究对象,研究了超声激励下液体中空化结构的形成与发展过程及稳定的空化结构;研究了超声

学位

超声空化空化结构相互作用径向运动

降低轨道电位的零阻变换器系统研究

近年来,针对地铁直流牵引供电系统中杂散电流和轨道电位传统治理方式的不足,零阻变换器系统（zero-resistance system,ZRS）被提出。ZRS跟既有牵引供电系统（traction power system,TPS）并联,通过负阻变换器（negative resistance converter,NRC）、开关单元（switch unit,SU）、回流线缆（return cable,R

学位

地铁直流牵引供电系统轨道电位杂散电流零阻变换器系统负阻变换器

基于可靠度理论的重力坝抗滑稳定设计方法研究

重力坝计算原理简单、可建地质类型广泛,是水电水利工程重点结构之一。抗滑稳定是重力坝安全设计中的研究重点,其主要分析方法:单一安全系数法、分项系数极限状态设计法以及可靠度理论设计法。目前实际工程主要采用单一安全系数法。然而,我国现行的水利行业标准《混凝土重力坝设计规范（SL319-2018）》提供了重力坝工程允许安全系数取值规定,此标准中,规定正常工况下允许安全系数均取3。该允许安全系数由工程经验决

学位

重力坝工程安全系数分项系数可靠度抗滑稳定

基于ZnO修饰层有机光电探测器的性能研究

氧化锌作为一种透射率高,性质稳定,环保的材料,在有机光伏器件与有机发光二极管研究中被广泛使用。在这些器件中,氧化锌修饰层的主要作用是增强电子传输性能。因此,减少氧化锌薄膜中的缺陷是提高器件性能的关键。所以,在氧化锌修饰层的制备中,紫外、高温、表面包覆等方法被广泛应用。而与以上器件不同的是,有机光电探测器作为一种检测光信号,尤其是弱光信号的光电器件,降低暗电流是提高探测器性能的关键手段之一。而光电子

学位

有机光电探测器光电倍增氧化锌缺陷暗电流

Actor-Critic强化学习方法及在船舶自动靠泊中的应用

其他学术论文