基于记忆优化机制的改进DQN算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户：a734266739

【摘要】

：

科学技术的进步推动着人工智能的快速发展,强化学习作为人工智能重要分支领域的研究越来越被广泛应用,特别是在解决智能移动机器人导航与探索问题方面。移动机器人导航技术是

【作者】

：

陈天星

【出处】

：

河南大学

【发表日期】

：

2004年期

【关键词】

：

强化学习启发式报酬函数记忆优化机制 DQN算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

科学技术的进步推动着人工智能的快速发展,强化学习作为人工智能重要分支领域的研究越来越被广泛应用,特别是在解决智能移动机器人导航与探索问题方面。移动机器人导航技术是基础也是机器人完成任务规划的重要保障,例如无人驾驶技术,智能无人机,智能空天一体化技术等都离不开导航技术的发展,而路径规划作为移动导航技术的基础备受广大学者的关注。由于智能移动机器人所面临的环境复杂且多变,传统的路径规划方法已不能满足现有的要求,更加智能化的路径规划算法亟待研究,目前将强化学习与移动机器人导航技术相结合是路径规划算法智能化研究的重要方向之一。鉴于此,针对未知环境下的智能移动路径规划问题,本文提出了一种基于强化学习的机器人路径规划算法,该算法在强化学习框架下开展了路径规划的深入研究,通过机器人“试错”的方式智能探索路径,达到了学习与规划同步完成,满足并适用各种复杂的环境。本文研究内容如下:1、改进传统规划算法在未知环境下距离优化问题,本文提出一种基于启发式报酬函数的DQN(Deep Q＿learning Network)算法。该算法在A*最短路径思想基础上,设计一种以距离作为评判标准的启发式报酬函数,通过当前执行动作对环境信息的探索与理解,利用深度神经网络的计算与反馈,帮助机器人能够快速对当前执行的动作以距离最优为目的的动态抉择,提升算法在距离计算方面的学习效率,并获得其最优解。该算法应用Python语言结合Tkinter模块搭建了两种仿真环境进行验证。其结果表明,在环境复杂训练充分的前提下,本算法相比于RRT、DDPG和原始DQN算法优势明显,路径规划距离分别缩短了33.3%、25.9%、31%(传统的A*算法无法完成规划任务),但在搜索时间方面略显不足。2、为了解决启发式报酬函数的DQN算法时间成本的问题,本文设计了一种基于记忆机制的优化DQN算法。该机制在记忆库的建立与更新两个方面进行了优化:1)在记忆库建立阶段减少相似记忆,增加无关联记忆;2)在记忆库更新方面采用“TD-error”最小原则方法。以此提高了记忆库中动作的最大学习率,避免重复动作的选择与使用,改善了动作学习的时间成本,达到距离最优兼顾减少搜索时间的目的。该算法应用Python语言结合Tkinter模块搭建了两种仿真环境进行验证。其结果表明,引入记忆优化机制经充分训练后,与RRT、DDPG和原始DQN算法在搜索时间方面相比分别缩短了14.3%、9.1%和53.8%,同时Loss函数图也印证了学习效果最佳。综上所述,本文提出的基于强化学习的路径规划改进方法在距离最优兼顾搜索时间方面取得了较好的研究结果,达到了预期效果,对智能移动导航方面具有较强的理论与现实意义。

其他文献

中国隔震技术浅析

介绍我国目前主要采用的橡胶隔震、摩擦滑移隔震和摩擦滚摆隔震等应用技术.探讨隔震技术的研究发展方向,分析其在工程应用中急需解决的问题,指出普及隔震技术的关键是降低隔

期刊

中国隔震技术橡胶隔震摩擦滑移隔震摩擦滚摆隔震建筑结构抗震隔震原理seismic isolation shock isolation system

《宋诗话辑佚》本《诗史》校议

宋蔡居厚所撰《诗史》，散佚已久。郭绍虞先生辑其佚文125则，都为一编，收入《宋诗话辑佚》下册，颇便学者。惟笔路蓝缕，艰难实多，千虑一失，势所不免。本文试就其间部分条目的错误（主要

期刊

《宋诗话辑佚》《诗史》校议

郑起潜《声律关键》与宋代科举八韵律赋叙论

唐宋诗赋取士，赋以律体，故律赋兴而古赋微。清人汤稼堂云：“律赋之兴，肇自梁、陈而盛于唐、宋。唐代举进士者……杂文则诗-赋-……而天实十三载以后，制科取士亦并诗赋命题。赋皆拘

期刊

律赋声律韵科举宋代诗赋取士唐宋古赋杂文制科

密度聚类算法性能优化和参数选取研究

DBSCAN是密度聚类的代表性算法,是当下科研人员的研究热点,本文针对DBSCAN算法进行了深入研究,并针对其性能和参数选取等方面存在的不足进行了改进。论文工作主要包含以下几

学位

聚类分析密度聚类方形邻域Grid网格网格簇参数选取高阶差分网格划分去极化

“拨头”考

“拨头”是与“兰陵王”“踏谣娘”同类的唐代歌舞戏，但“拨头”究竟是一种曲目，还是一种表演形式，一直存疑。本文联系日本唐乐中的“拔头（ba tou）”舞以及日本法隆寺“拔头”假面

期刊

拨头假面拔头舞表演情节植发

读唐人元结《舂陵行》诗小札

《舂陵行》，是唐代著名诗人元结的代表作。其小序曰：“癸卯岁，漫叟授道州刺史，道州四万余户，经贼以来，不满四千，大半不胜赋税，到官未五十日，承诸使微求符牒二百飨封，皆曰：“失其限者，罪至

期刊

《舂陵行》唐代诗人元结诗歌文学评论

《唐御史台精舍题名考》补正一则

清人赵钺、劳格撰写的《唐御史台精舍题名考》是检索唐代三院御史的重要工具书（中华书局，1997年）。但美中不足的是，赵钺、劳格主要依据王昶《金石萃编》卷七四所录《大唐御史台精

期刊

御史台唐代题名《金石萃编》中华书局工具书检索拓本

建立深圳地区混凝土测强曲线初探

针对深圳建筑混凝土的地区特征及建设部规范,通过制作试块并进行超声回弹综合法检测,经数据处理分析发现,试块真实测压值比统一曲线所算值要大35%,证明深圳有必要建立地区测

期刊

超声回弹综合检测法测强曲线相对误差深圳ultrasonic-rebound method concrete ultrasonic-rebound-str

究利病通权变——《明经世文编》批注研究

晚明社会多为史家所关注，在于其政治上处于末世，而社会经济等仍在发展之中，而此则恰为社会转型之特徵。晚明松江府相对於全国其他地区，无论在经济，还是在文化上都较为兴盛，然而面对

期刊

经世文编批注权变社会经济社会转型建州女真松江陈子龙晚明上都

真假李逵

人物真李逵假李逵李母半寸丁(剧中人物均为传统戏曲衣着打扮) [李母上场。字母(念)老身今年七十八, 家道兴隆日日发。我,李门李氏,为李家生了两个儿子,长子李逵,人称黑旋风,

期刊

黑旋风

基于记忆优化机制的改进DQN算法研究

与本文相关的学术论文