基于自回归预测模型的深度注意力强化学习方法

来源 :软件学报 | 被引量 : 0次 | 上传用户:backaroo2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度强化学习在各种决策、规划问题中展示了强大的智能性和良好的普适性,出现了诸如AlphaGo、OpenAI Five、Alpha Star等成功案例.然而,传统深度强化学习对计算资源的重度依赖及低效的数据利用率严重限制了其在复杂现实任务中的应用.传统的基于模型的强化学习算法通过学习环境的潜在动态性,可充分利用样本信息,有效提升数据利用率,加快模型训练速度,但如何快速建立准确的环境模型是基于模型的强化学习面临的难题.结合基于模型和无模型两类强化学习的优势,提出了一种基于时序自回归预测模型的深度注意力
其他文献
学生心理是否健康,直接关系到教学效果的好坏,有时甚至比教师的教学水平更为关键。在初中物理教学中,教师应寻找学科教学内容中的契机,培养学生的健康心理。创设民主、宽松、
柳宗元是唐代著名的思想家与文学家,作为古文大家,其诗名虽不如文名显赫,但柳宗元的诗歌在我国古代诗歌史上占有重要地位。唐代以后各代对柳诗的接受也呈现出不同的时代特点,
浴婴图是古代美术创作的题材之一,这种画作深受古今人们的喜爱。一些研究者在对浴婴图的内容进行分析时,往往引证民俗学中古人对于小儿"洗三"习俗的重视,来说明浴婴图所描绘的
今年是国际著名的数学家、物理学家、计算机科学家艾伦·图灵诞辰100周年。他被学术界公认为电子计算机理论和模型的基础奠定者,是世界计算机之父。为纪念这位伟大的计算
环氧沥青是由环氧树脂、固化剂、基质沥青三部分组成的混合物,环氧树脂与固化剂发生固化反应,其固化产物具有三维立体网状结构,束缚着沥青颗粒,使其不能轻易流动,改变了传统沥青热塑性的本质,环氧沥青与其他改性青相比,其强度高、耐腐蚀、层间粘合力大、温度稳定性好、抗疲劳性能优越。尽管环氧沥青有诸多优点,但其造价昂贵,大大限制其在道路工程方面的应用。本文研发低掺量高性能的环氧沥青,主要为重载交通道路,提供性能
采用溶剂热法制备了尺寸均一、形貌规整的Yb3+,Er3+共掺NaREF4(RE3+=Lu3+,Y3+,Yb3+)纳米材料,借助稳态发光光谱和时间分辨光谱技术表征了3种基质纳米材料上转换发光行为的特
近来,建筑理论的研究活跃了一点儿,文章多了起来。这趋势挺好。可惜,选题的范围还嫌窄,而且有点陈旧。其实,建筑理论的天地很大,而目前空白的无人区还不少,这种情况不利于理
新孝道教育'以构建大德育格局、培养大德大爱大情怀的孝乡学子为定位,以促进学生全面发展为宗旨,遵循'孝亲贤,友天下,书春秋,家国情'的基本理念,坚持'以文化
“资本主义批判”是马克思、韦伯和西美尔等经典社会学家共同面对的问题域。马克思把“异化”理解为资本主义的基本困境,并对资本主义的异化展开了人本主义批判和政治经济学批
发展大学生个性是培养创新精神的前提。文章论述了个性的内涵及培养大学生良好个性的途径。