基于SAC算法的移动机器人智能路径规划

来源 :系统仿真学报 | 被引量 : 0次 | 上传用户:shuzhong12miyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决传统的机器人路径规划算法维度高、收敛慢、建模难等问题,本文工作提出一种新的路径规划算法,该算法基于深度强化学习软演员评论家(Soft Actor-Critic, SAC)方法,旨在解决机器人面对具有静态和动态障碍物的复杂环境时,路径规划表现差的问题。为使机器人快速躲避障碍物并且到达目标,本文工作设计合理的奖励函数,使用动态的状态归一化和优先级经验技术。为评估该算法性能,本文构建基于Pygame的仿真环境。在该环境下,将提出的算法与近端策略优化(Proximal Policy Optimization, PPO)算法进行比较。实验结果表明,相比于PPO方法,本文提出方法的累计奖励能够得到显著提高,并且具有更强的鲁棒性。
其他文献
建构技能型社会可以促进中国在工业4.0下实现向高技能均衡转型、以技能治理相对贫困实现共同富裕。获得经济效率、促进社会公平、实现人的全面发展是中国建构技能型社会的逻辑起点。技能型社会的制度体系要基于国家宏观顶层设计、涵盖技能形成与使用全流程、覆盖技能和品格全口径人才培养、关涉包括企业在内的多个利益相关主体,是一个超越单一教育体系改革的多维制度体系,主体制度包括技能预测制度、技能形成制度、技能使用制度
建设技能型社会是我国新发展格局下提出的重要战略,它既关乎产业升级和经济发展,也关乎民生就业与社会公平,更关乎教育强国总体进程。技能型社会应是以推动经济社会高质量发展、促进社会共同富裕、满足人民美好生活需求为根本价值诉求,以服务全民终身技能学习、提升技能资本规模与质量、成为高技能均衡经济体为核心目标,以技能形成体系和技能需求体系为主体结构,以更公平、更包容、更多元、更高端、更均衡为根本特征的新型社会
目的:神经电生理学研究在帕金森病(Parkinson’s disease,PD)中起到了非常重要的作用,既往的研究发现脑电图(Electroencephalogram,EEG)可以为PD的非运动症状提供可靠和广泛可用的生物标志物,然而与运动症状相关的EEG特征目前仍然不确定。随着脑深部电刺激术(Deep brain stimulation,DBS)的广泛应用,获取深部核团的电生理信号成为可能,丘脑
电商行业飞速发展,庞大的货物量对仓储容量要求越来越大。AGV作为智能仓储系统中一种常用的搬运工具,在大面积集成式仓储环境下,其路径规划所需栅格图的规模也不断增大。传统路径规划算法缺乏对环境的感知能力,算法处理结果的优劣将直接影响AGV是否能完成任务以及完成任务的实时性和快速性。鉴于深度强化学习的强大自主学习能力,研究基于深度强化学习的大规模路径规划方法具有重要意义。首先,基于深度Q网络(DQN)算
快速发展的经济社会衍生出众多的偷税、漏税行为,明确偷税、漏税、避税与逃税的界限区分,可通过增加罚金和设置资格刑来完善罪轻的问题,通过明确部门的工作规范和增加外部机构的调和来解决部门间的衔接问题。
中国经济已经进入新常态发展阶段,经济发展的目标也不再囿于GDP增速和总量目标,而是转向更加普惠利民的发展。进入新常态,创新是重中之重。如何把握经济发展趋势,探究新的经济增长点是企业密切关注的大命题。2020年新冠疫情的突然爆发,在给神州大地蒙上雾霾的同时,也给国内中小型企业存续带来了巨大压力。中央银行陆续出台相关扶助政策,对于商业银行来说也是新的挑战。金融科技(Fintech)是将新兴技术发展应用
当前我国城镇化将进入以提升质量为主的转型发展新阶段,城市发展也逐步转变其发展方式。不再一味地向外扩张,而是转向调整内部结构,注重内部更新,提高城市质量和承载能力,控制增量,盘活存量、优化存量。在存量规划背景下的城市更新也通过方式的转变将越来越令人重视。文章通过用GIS手段对历史文化名城——开封的城市更新进行问题探讨与方法的研究,以定量与定性方式相结合,对收集到的数据进行综合整理分析,对开封市现存文
盲人是一个数量众多,特性突出、特别需要帮助的社会群体,盲人的出行已经成为中国乃至世界备受关注的问题。作为人类的重要感觉器官之一,视力在日常生活中的作用不可替代,近几年来,国内外研究人员设计出各类盲人出行辅助科技产品,但均存在体积过大,价格高昂,操作较繁琐等问题,一方面很难长期辅助盲人出行,另一方面对经济条件较差的盲人造成了负担。随着深度强化学习技术的发展,盲人辅助设备不断更新,为视力残疾群体使用高
现有的路径规划算法对路径规划过程中的路径安全性问题考虑较少,并且传统的PPO算法存在一定的方差适应性问题。为解决这些问题,提出了一种融合进化策略思想和安全奖励函数的Safe-PPO算法,算法以安全优先进行路径规划。采用CMA-ES的思想对PPO算法进行改进,并引入危险系数与动作因子来评估路径的安全性。使用二维栅格地图进行仿真实验,分别采用传统的PPO算法和Safe-PPO算法进行对比;采用六足机器
在国家治理现代化背景下,完善的重大行政决策程序有利于提升行政效率和政府公信力、规范行政权力运行并提高政府治理能力和治理水平,是推进政府决策科学化、民主化的重要方式。与国务院印发的《重大行政决策程序暂行条例》相比,地方政府在重大行政决策程序立法方面整体进程较为滞后:部分地方立法中未及时调整五大程序机制相关规定、未将风险评估结果作为决策依据、未建立全面系统的决策后跟踪反馈和评估机制等。以行政决策推进国