基于强化学习的自主式移动机器人导航控制

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shiguangli010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自主式移动机器人可以工作在复杂非结构化环境中,无需人工干预,对环境无特定要求,具有高度自规划和自适应能力,这是一种有目的地自主式移动和完成任务的智能系统。其中,导航技术是移动机器人实现智能化的关键技术之一。在未知环境中,移动机器人需要拥有快速的学习能力,以提高对环境的适应能力,解决在自身不完备知识情况下的复杂问题。强化学习具有通过自我学习来逐渐获取智能行为的特征,在自主式移动机器人导航应用中受到广泛关注。强化学习模拟动物学习的过程,通过不断试错寻求从状态到动作相适应的映射关系,最终获得最优化的动作状态策略集。针对学习过程中传统算法存在收敛慢,非即时报酬的估计存在时间约束,占用较多内存资源和计算时间的问题,本文通过对传统强化学习理论的研究,结合了相对值迭代理论和最优化理论,通过合理变形,提出了一种相对值迭代强化学习(RVI-RL)算法,这是基于离散马尔科夫决策过程(MDP)环境下的无需估计平均报酬的强化学习算法。RVI-RL算法是一种无模型算法,免除了对整个任务平均报酬的估计,也免除了因不断修正平均报酬估计所带来的偏差。本论文的实验环境为经典的出租车问题,初始化为栅格型地图,相对于出租车为未知或动态环境,出租车自主行驶过程中,通过试错技术来获取环境状态信息,最终寻求状态与动作的最佳映射。实验表明,在单自主移动机器人导航过程中,RVI-RL算法比Q学习算法和R学习算法更快更稳地收敛于最优策略集;在多自主移动机器人导航环境中,新算法表现出诱发两个机器人协作规划行为的特征,比传统的Q学习算法更合适多机器人协作规划的应用环境。尽管RVI-RL算法消除了平均报酬参数的估计,在大规模状态空间中仍然存在“维数灾难”问题,本论文也讨论了将分层概念引入RVI-RL算法的可行性,实验表明,在收敛于最优策略速度上,RVI-RL算法比MAXQ算法也具有优越性。
其他文献
船舶在海浪中航行受到海浪、海风等环境因素的干扰,不可避免地产生摇摆,尤其在恶劣的海况条件下,对船舶的海上作业造成很大的安全隐患。如果能提前几秒或十几秒预报出船舶的
在能源危机日益严重的今天,本文致力于将具有谐波小、直流电压利用率高、算法简单、规律性强、易于数字化实现特点的电压空间矢量脉宽调制(SVPWM)技术应用到高效节能的现代斩波串级调速系统中。首先从三相电压型有源逆变器和SVPWM控制技术的基本原理出发,建立基于SVPWM技术的有源逆变控制结构图,利用SIMULINK动态仿真工具实现了SVPWM控制算法在无源逆变和有源逆变的动态仿真。在此基础上搭建硬件实
在有限维欧氏空间中,锥线性互补问题是国内外研究的一个热门课题.特别是利用欧氏若当代数技术来研究锥线性互补问题,受到国内外许多专家们的密切关注.然而,到目前为止,运用若
迟滞系统是指一类在往复动力作用下表现出变化的非线性性质的系统,迟滞的存在会极大地影响控制性能,不但会降低控制精度而且有可能使得系统发散。滑模变结构是一类特殊的非线
本文主要是以一类不确定离散奇异系统为模型,分析讨论了在各种扰动存在的情况下,系统仍能保持鲁棒稳定的充分必要条件。研究的方法主要是通过区域极点配置和鲁棒H∞控制理论,
水体溶解氧是水生生物生存的必要条件之一,也是衡量水体质量好坏和影响水生态环境质量的重要因素,然而水体环境复杂多变,导致不同区域的溶解氧含量空间分布不均衡,不利于水体生态的稳定和可持续发展。因此,溶氧浓度和均衡性的调控对水体生态修复和治理具有重要意义。常见的池塘溶氧浓度调控采用的是传感器阈值方式,即当检测到的水体溶氧低于下限值时,启动增氧机进行增氧,当溶氧高于上限时则停止增氧,然而当检测到溶氧低于最
组态软件作为风电场远程监控系统的重要组成部分,其性能的优劣直接关系着风电远程监控系统的整体性能。具有通用性和重用性的组态软件不仅能够提高远程监控系统在风电场应用的
随着建筑业的发展,政务监管信息系统在建筑市场管理中发挥越来越重要的作用。近年来,河南省发展了很多独立的业务系统,这些系统逐渐形成了一个个“信息孤岛”,各系统无法进行
航海作业标绘台是船舶导航系统的主要配套设备之一,它能根据导航设备提供的导航信息在纸海图上实时标绘船舶航迹等信息,并且同时在显示屏上显示船舶位置、速度、航向等信息。
随着社会发展的需要,带钢产品在生产生活中应用越来越广泛。带钢表面质量直接影响其后续产品的质量,现有的检测方法在高速带钢生产线中存在实时性差、识别率较低等弊端,已成