面向轨迹规划的深度强化学习奖励函数设计

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:q3821713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有基于深度强化学习的机械臂轨迹规划方法在未知环境中学习效率偏低,规划策略鲁棒性差。为了解决上述问题,提出了一种基于新型方位奖励函数的机械臂轨迹规划方法A-DPPO,基于相对方向和相对位置设计了一种新型方位奖励函数,通过降低无效探索,提高学习效率。将分布式近似策略优化(DPPO)首次用于机械臂轨迹规划,提高了规划策略的鲁棒性。实验证明相比现有方法,A-DPPO有效地提升了学习效率和规划策略的鲁棒性。
其他文献
近年来党和政府在论述我国医疗卫生事业发展时,都反复提到“坚持中西医并重”方针。2016年8月19日,习近平出席全国卫生与健康大会时的讲话中明确提出“要着力推动中医药振兴
报纸
文献管理软件在科研工作者开展学术研究和交流过程中发挥了重要的作用,然而在期刊编辑工作中的应用却很少涉及。通过合理发掘和利用,文献管理软件在期刊编辑的日常工作中也能
根据国务院《住房公积金管理条例》和住房城乡建设部、财政部、人民银行《关于健全住房公积金信息披露制度的通知》(建金[2015]26号)的规定,经住房公积金管理委员会审议通过,
报纸
洋务运动和清末修律都是腐朽没落的晚清政府为挽救自身的统治而发动的救亡运动,这两次运动作为清政府的变革举措,不仅深刻地关乎着清政府的统治命运,更是对当时中国的社会发展和政治体制的走向都起着颇为重要的影响。在中国为了摆脱传统而走向现代的艰难历程中,洋务运动是一次重要的尝试,也可以称之为中国现代化的开端。而清末修律一方面废弃了中国保留几千年的封建法制体系,另一方面它还效仿西方确立了具有资产阶级性质、体现
学生党员是学生中的优秀分子,如何利用好学生党员队伍服务于广大师生及社会显得尤为重要。当前,学生党员服务意识淡化,为他人服务的动力不足、意愿不强,服务水平还有待提高。充分
在新时代背景下,中国经济发展进入新阶段,全社会用电量与GDP增速之间的关系出现了新变化,在部分年份2者差异尤为严重。以上海市为例,基于2001~2016年的统计资料,利用Eviews软
介绍了高速列车制动闸片材料的成分,性能,特点和发展趋势,提出了我国发展高速列车制动闸片材料的建议。
为了解鸭胸肌肉加热过程中肌动球蛋白变化情况,本实验以鸭胸肉为材料,研究了加热温度(45、50、55、60、65、70℃)和加热时间(0、1、10、20、30、60 min)对肉中肌动球蛋白解离
遗体就地掩埋后又被日军挖出 $$ 《新华日报》延迟近一个月才刊登左权殉国消息 $$ 周恩来派八路军驻重庆办事处汇款接济左权老母亲$$ 1942年5月25日,八路军副总参谋长左权
报纸
《聊斋志异》代表着中国古代短篇小说的最高成就。蒲松龄的《聊斋志异》在庄子思想的影响下,创造出了跨越时空、虚实相生的充满生命意识的艺术世界,凸显了生命最张扬和最游刃