基于深度逆向强化学习的行动序列规划问题研究

来源 :国防科技 | 被引量 : 0次 | 上传用户:zoec
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对深度强化学习在解决序贯决策任务中严重依赖回报函数,而回报函数又存在着反馈稀疏和反馈延迟等问题,论文提出了基于深度逆向强化学习方法的行动序列生成与优化方法,通过专家示例轨迹数据重构回报函数,实现高质量示例轨迹数据中隐性专家经验的获取和利用,挖掘数据背后的规律。然后将重构的回报函数与环境固有的回报函数进行奖赏塑型,生成的新的回报函数能够更加及时、准确地对智能实体的行为给予反馈,大幅加速了强化学习的收敛速度。
其他文献
介绍了生成虚拟环境的几种主要方法,如利用高度场方法生成地形,利用3DS MAX构造虚拟环境中的复杂三维模型,用布告板(Billboard)技术和Cross-Billboard技术构建逼真的树木模型
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
湖南“两型社会”经济持续快速的增长,新能源汽车产业做为汽车行业的战略新兴产业,对高技能人才的需求呈较快增长态势。由新能源汽车产业发展带来的新能源汽车专业人才培养的兴
建筑材料的检测是保障工程施工质量的基础,也是企业管理体系先进性的基本体现,建筑施工企业必须充分认识到材料检测以及管理对企业的重要意义,作者就如何严把建筑材料进场检
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
太阳能的结构复杂多变,一般都有几个比较重要的部分组成,但是槽式太阳能的聚光器的支架结构是主要的组成部分。本文根据其拓扑优化设计进行详细的分析研究,不断的改善,进行不断的
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
法在运行中的经常的情况是,立法建议和实际成为法律的法、立法目的和原则与具体的法律及实施细则、不同立法主体的立法等彼此都是不同的,尤其是,法律规定法和法庭上法官判决
学位
目的探讨个性化输液护理在静脉输液护理中的应用效果。方法选取我院2016年7月~2018年8月收治的100例静脉输液患者作为研究对象,按照随机数字表法分为对照组(50例)与观察组(50
本文阐述了Windows的GDI技术的特点、坐标系和映射方式。提出了实现图形滚动显示的Windows程序设计方法和图形的缩放技术。