强化学习算法研究及其在路径规划上的应用

来源 :华中科技大学 | 被引量 : 1次 | 上传用户:shanshan0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能机器人和无人车具有广阔的应用前景,路径规划作为其核心问题,引起了广泛关注。路径规划问题是在给定起点和终点的情况下,智能体通过各种限制条件比如障碍物等规划出一条最优路径。强化学习模仿人类的学习过程,通过探索环境所得的环境回报作为训练数据,自行训练,不再需要预先设定好的训练数据,适合作用于未知环境,适用于路径规划问题。强化学习在路径规划下的使用,已经取得了不错的效果,但是在实际使用中,由于环境可能较为复杂,对于算法的规划能力提出了挑战。传统强化学习算法在复杂场景下,运行结果并不理想。针对复杂场景下传统强化学习算法表现不理想的问题,提出了一种Sarsa算法的改进。通过分析强化学习算法表现差的原因,对传统强化学习算法使用了三种改进策略:首先,对经典Sarsa算法进行了改进,在Sarsa算法的基础上添加了一个新的Q-table,使用两个Q-table的协同作用来避免过估计,当选取动作时,根据两个Q-table的Q值和来决策最优动作,在每一次Q值更新阶段,两个Q-table交替更新,避免冲突,提高了算法路径规划能力;其次,针对可能会陷入的探索-利用困境,使用了阶段性贪婪策略,来平衡探索和利用的决策问题。在算法初期,智能体侧重于探索策略,在算法后期,智能体侧重于利用策略,在两个时期之后都会有数次迭代来验证算法的效果;最后,针对折扣因子的选择问题,本文提出了动态的折扣因子。在算法规划能力较差时,侧重于未来。在算法规划能力较强时,侧重于当前。为了确定改进算法的实际效果,本文构建了多种不同限制条件的场景来进行实验,实验结果表明,改进后的算法相比传统经典强化学习算法,都有明显的提升。
其他文献
互联网的发展给各行各业都带来了新的机会和挑战,也提供了一个面向全世界用户的信息交互平台。人们逐渐习惯在互联网上发表意见和评论,表达自己的观点。随着互联网应用的持续高速发展,海量的文本内容在网络上存储和流转,包括了产品评论、个人微博、热点舆论等信息。这些文本中蕴含了一些有价值的信息,由于人工整理已经很难适应迅速增长的文本信息规模,如何高效准确地提取有价值的信息,成为了一个新的研究课题,情感分类是其中
学位
作为高效便捷建筑信息模型软件的探索,实现一个高效浏览器端模型交互平台,既能够在便携电子设备上使用,同时也保持了多端表现一致,不必为特地为某一终端开发定制化软件。而为了解决在大型建筑模型在电脑浏览器上,输出帧率过低,显示卡顿,浏览体验差的问题。通过基于混合空间划分的视锥剔除技术和层次细节技术的结合来达到提升输出帧率,流畅显示,良好浏览体验的目标。基于混合空间划分的视锥剔除技术,基本思想是在视锥剔除的
学位
随着“大众创业,万众创新”的势头风生水起,创业正在成为一种新常态,各地政府也在不断出台新政策为创业的人清除障碍。在这样一种全民创业的时代背景下,诞生了大量的创业孵化社区。虽有很多创业孵化社区的存在,但目前存在的创业孵化社区管理系统不仅功能单一、而且交互性差,难以满足社区的需求。基于此目的,一个集功能齐全与交互性良好为一体的创业孵化社区管理系统应运而生。系统采用B/S架构,利用Spring Boot
学位
伴随着移动互联网的发展,越来越多的信息以电子形式存储在移动设备当中,如何有效地保障这些信息的安全是值得各方重视的问题。一般认为对文件进行加密能够较为有效的保障信息的安全,而在各类文件中以视频类型的文件结构最为复杂、蕴含的信息最为丰富,所以对视频文件加密技术的研究具有较为重要的地位。视频文件有其自身的特性,而大部分的传统加密算法并没有在加密过程中针对其特性对视频文件和其他文件进行区分,导致传统加密算
学位
在工业生产中,标准的工作着装是安全工作生产的重要保障,在建筑工人、电力维修、交警等工作群体中显得尤为突出。为了降低工作中的安全隐患,目前,对工作人员的安全帽,工作服等着装检测,大多停留在领导抽查的状态,监管效力有限。为了降低人力成本,针对在电力场景下的实际应用,系统采用Alpha Pose网络模型来检测人体骨架,在确定人体骨架后,对如头部、身体、脚等部分进行分类处理。通过Alpha Pose网络模
学位
社区是复杂网络中的一种内部紧密连接,外部稀疏连接的结构。社区发现就是在复杂网络中找出社区结构。图神经网络是一种用于处理图数据的神经网络,其中的图卷积网络(Graph Convolutional Networks,GCNs)和图注意力网络(Graph Attention Networks,GATs)近年来逐渐被运用于社区发现任务。此外,还有将马尔可夫随机场模型(Markov Random Field
学位
图像识别技术属于图像处理技术的范畴,是模式识别中的一种。图像识别技术已经落地使用于实际的生活当中,比如交通、金融、安防等领域。该技术的原理就是对一张图像,在给定的图像类别集合中,找出一个和该图像匹配度最高的类别,然后作为该图像所属类别的结果。提升有关图像识别算法的准确率,减少识别消耗的时间有着重大的研究意义,对技术的落地应用都有着深远的影响。本文的主要内容是基于主成分分析和线性判别分析的图像识别算
学位
虚拟资源是互联网企业最重要的产品之一,对于这些资源的集中管理是十分必要的。某公司某部门主要负责该公司一些关键的虚拟资源,每年这些虚拟资源都会带来很大比例的营收。该部门最初只有一种虚拟资源,随着业务的扩展,在原来的基础资源上逐渐开发出了多种衍生虚拟资源。另外,节假日的时候,该部门为了增加收入,会进行一些营销活动,需要一次性给用户发放多个虚拟资源。原有的直接调用各个虚拟资源提供的接口的模式,随着虚拟资
学位
随着生物信息学的不断发展,蛋白质残基接触预测和蛋白质结构域预测的研究也越来越多,准确率也越来越高。蛋白质残基接触图包含了蛋白质二维结构和三维空间距离信息,是研究蛋白质三维结构的重要步骤。蛋白质结构域对于解析蛋白质结构和理解蛋白质进化与功能有很大的作用,预测蛋白质结构域是蛋白质结构预测的第一步。论文主要是利用蛋白质残基接触图对蛋白质结构域进行划分。首先改进了目前蛋白质残基接触预测最好的网络Respr
学位
随着医学显像设备的高速发展,正电子发射计算机断层显像(PET,即positron emission tompgraphy)设备面世并在医学可视化领域扮演着越来越重要的作用。与此同时面向PET数据的三维可视化需求也越来越多。然而,目前三维重建方法多应用于CT数据而对PET数据进行数据可视化的方法相对匮乏,因此研究相应的解决方案具有重要的意义。文章对常见的三维重建算法进行了研究,在分析比较面绘制体绘制
学位