基于强化学习的路径规划算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:XFZWY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动机器人技术具有广阔的应用前景,其实现需要多学科专业知识的相互配合。其中,路径规划是实现移动机器人技术的关键所在。移动机器人的路径规划是指在未知环境下,移动机器人躲避障碍物,并规划出一条从初始位置出发到抵达目标位置的运动路径。在此过程中,移动机器人需要自主地探索环境,寻找目的地。强化学习算法模仿了人类的学习方式,可以让移动机器人进行自主学习。在不断地试错中,移动机器人根据环境的反馈信息,反复修正当前的运动方式,直至找到完成任务的最优方式。因此,本文把强化学习算法作为主要研究方法,把未知环境下的路径规划作为主要研究方向。通过强化学习算法解决路径规划问题,可以让移动机器人掌握自学能力和自适应能力,但是在实际应用过程中仍然存在一些问题。第一个问题是探索-利用困境。当移动机器人进行动作决策时,它面临两个选择。一个是探索环境,采集更多的环境信息。另一个是利用环境,基于现有知识做出利于抵达目标位置的选择。如何合理分配探索和利用的概率是解决探索-利用困境的一大难点。第二个问题是如何设计出一个可以有效反馈环境信息并为移动机器人提供正确指导信息的奖赏函数。这些问题都会影响算法收敛,如果算法不收敛,那么移动机器人将无法得到最优路径。为了加快算法的收敛效率,本文提出了一种自适应探索方法并且优化了奖赏函数。然后本文结合上述两个改进点提出了基于自适应探索的Q-learning算法。本文的主要研究工作总结如下:(1)本文针对动作选择策略中存在的探索-利用困境,提出了一种基于ε-贪婪算法的自适应探索方法。它将智能体的训练过程分成三个阶段。根据三个阶段的不同需求,动态调整探索因子,合理分配探索和利用的概率。自适应探索方法可以提高探索效率,减少探索时长,加快算法收敛。(2)针对强化学习中原始奖赏函数过于简单的问题,本文对奖赏函数进行了优化,把智能体的状态-动作对进行分类,细化奖赏规则。优化后的奖赏函数增加了反馈的环境信息,给予了移动机器人充足的指导信息,提高了学习效率,提高了算法的收敛能力。(3)本文在三种不同的实验场景中进行仿真实验,用以验证算法的可行性。实验结果表明,本文提出的算法可以成功找到最优路径。而且,Q-learning、SARSA和本文算法的对比实验,可以证明本文算法的路径规划性能更好,花费的计算时间最少,收敛速度最快。
其他文献
近年来,商誉的处理一直是学术界争论的热点。从2010年开始,我国高溢价并购热潮出现,从而很多高商誉企业出现。由于商誉的初始确认和后续计量处理不当,企业商誉爆雷的现象比比皆是。一些被高溢价并购的企业在业绩承诺报告期后骤然“变脸”,盈利能力大幅度下降,导致母公司计提商誉减值损失,这大大地损害了投资者的利益,扰乱了股票市场的秩序。高商誉以及商誉减值的成因有哪些?它们又会带来怎样的经济后果呢?这是许多投资
随着网络经济的蓬勃发展,由于网络短视频具有内容短小精悍、交流互动性强、传播速度快等特点,网络短视频的用户不断增加。但是因其产生的著作权侵权问题也接踵而来,引起法学界及实务界的热烈讨论,本文主要围绕着短视频著作权侵权问题背后的法律成因,以及制度构想进行合理论述。研究短视频著作权侵权问题,需要首先了解短视频的定义、特征与分类这些基础性的问题。我国当下短视频著作权侵权问题较为复杂,通过对于短视频侵权现状
介绍了一种新的水质预测方法—灰色动态模型群法的基本原理和计算过程。将该方法应用于浑河沈阳段某监测断面的水质预测中,预测所得数值经过一种新的误差修正方法后和实际监
她与杭州水的不解情缘,是对杭州“水”与杭州人最好的注解:西溪水之无邪、西湖水之轩昂、钱塘水之搏击、运河水之创意无边。
从很小的时候开始,我便相信我的世界存在一些我看不见的东西:在伊斯坦布尔街头的某个地方……我五岁的时候被送到另一栋房子住一小段时间。那时我父母几番波折的分居结束,两人
心房颤动(atrial fibrillation,AF)在临床心律失常的类型中非常普遍,其临床表现存在于诸多疾病中,不但致死率及致病率高而且并发症严重比如心功能不全及血栓栓塞等,至今其发
【正】 中小学的课程教材在基础教育体系中占有中心位置,教育方针的规定和培养目标的要求,集中的、具体的表现在中小学的课程结构和教材内容中,它直接地关系着培养什么人的问
偏高岭土是在一定的温度下热活化高岭土而获得的一种非晶的过渡相,具有原材料来源广、活性高、能耗小、无二氧化碳排放等优点,有着很好的应用前景。然而,偏高岭土的活性受高岭石结晶度、原状高岭土粒径分布、煅烧温度、煅烧时间、脱羟基程度等因素的影响,因此,为了高岭土更深层次的开发利用,对高岭土自身特性展开系统的研究是非常必要的。本文分别以三种不同成因高岭土和两种相同成因不同粒径的煤系高岭土为原料,探究高岭土沉
【正】 教学大纲是编写教材、从事教学和进行考核的依据,它直接反映着中小学教育的培养目标和培养途径。为了审查九年义务教育的新大纲,今年元月 4日——13日,国家教委集中了
目前,我国还没有专业化、专门化的蒙古文资源馆配中心,也没有成熟的蒙古文数字资源平台。蒙古文资源馆配中心的建设受采访、MARC数据、业务拓展及物流配送等因素的制约。内蒙