动作序列预测的强化学习迁移

来源 :南京大学 | 被引量 : 0次 | 上传用户:JK0803_liuchao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能在自动驾驶、服务型机器人等领域的应用,都需要一种在不确定的动态环境中决策的能力,这正是强化学习技术,一种通过与环境的交互和反馈的机器学习方法。强化学习是一种试错法,需要大量的学习样本,这也是它在实际中难以应用的原因之一。迁移学习是利用任务间的相似性,从已经学习好的模型中提取和迁移有效知识,加速解决新的未知任务的学习框架。在强化学习中的迁移学习有多种类型,如基于模型参数的迁移、基于子策略的迁移和基于表征的迁移等等,但已有的方法大多只适用于相同的状态-动作空间任务间的迁移情形。更高层次抽象知识的发现和提取,以及更灵活的迁移方法仍有待发明。在强化学习迁移中,状态空间的特征是经常被考虑的,而动作空间的特征和结构很少被涉及。强化学习任务的状态有很多不同类型,如用数字编码网格位置的小规模状态空间,和视频游戏中每帧像素表示的大规模状态空间。状态空间的表示和理解是个重要的难题,而动作空间的理解往往更为简单,如在导航任务中只涉及到东、西、南、北四个动作。不同动作序列的组合中包含了从环境学习到的知识。像层次强化学习中将动作空间分为高层次和低层次的两种类型后,问题的复杂度大大降低。动作空间结构的认识、动作序列的不同组合、动作间关系的挖掘,是一种更抽象的语义层次的知识。本文从动作空间的特征考虑,提出一种新的迁移知识——动作模式,形式化描述其为基于历史动作序列,下个动作的概率分布。本文的迁移框架主要包括两个部分:动作模式的提取和动作模式的迁移。在动作模式的提取部分,本文提出使用递归神经网络作为动作序列预测模型,对其建模。递归神经网络常用于序列数据建模,可以建立长时间的依赖关系,并且在理论上被证明图灵完全的。动作序列模型可以挖掘出强化学习任务的动作间的关系和某种行为规模,也可以作为生成模型产生与源任务动作序列相似的动作序列。在动作模式的迁移部分,我们提出了两种动作模式迁移算法:基于内在奖赏机制的动作模式迁移和启发式探索的动作模式迁移。基于内在奖赏机制的迁移利用了奖赏在强化学习中的重要性,将动作预测模型作为当前动作好坏的评价,有利于解决奖赏稀疏的问题;启发式探索的迁移直接从动作预测分布中采样出下一个动作,并用到探索策略中,该迁移方法没有需要调节的参数,且对目标任务的影响更小、更加稳定。为了验证这两种迁移方法的有效性和灵活性,我们在相同状态空间和不同状态空间任务间的迁移设置下进行了实验,实验结果表明动作模式的迁移极大地提高目标任务的学习速度。最后,本文将动作模式迁移的方法扩展到深度强化学习任务中,提出一种从小规模状态空间中提取知识,加速解决复杂的大规模状态空间任务的迁移方法。并且本文以DQN算法为基础,提出了动作模式迁移的DQN算法,并在ViZDoom的射击场景中验证了该算法在加速学习过程上的效果。
其他文献
钙钛矿半导体材料由于较高的光吸收能力、量子效率及载流子迁移率等在光电器件领域有着广泛应用。当材料尺寸进入纳米级,甚至与激子玻尔直径相当时,量子受限效应将造成荧光光谱窄化、荧光效率增强,进一步拓展了其作为发光材料的应用前景。但多激子俄歇复合以及暗态的存在分别对钙钛矿材料的激光及LED应用起到负面影响。因此,本文就钙钛矿纳米晶体在有机阳离子、卤素离子及形貌三方面的调控研究了钙钛矿成分及限制效应对多激子
近三十年来技术快速进步,移动通讯行业持续发展,至今全球手机用户已超过20亿,年出货量总计超过15亿台,手机已日益成为“中心化的永远在线的智能移动终端”,渗透到人们日常工作生活的方方面面。这期间,中国的手机产业经历了萌芽代工、品牌崛起、品牌重振、集体出海等几个阶段,目前在全球手机产业链中扮演了极其重要的角色,全球超九成手机产自中国,中国已经形成了从上游到下游、从设计采购研发到制造销售的完整生态链。华
目前工业用氢大多是通过水电解制取。电解水制氢耗电量高,人们常称之为“电老虎”。当今世界各国都在探索如何改进电解槽结构,提高电解槽的工作压力,以达到降低能耗的目的。 武钢公司和哈尔滨机联机械厂合作,研制成功DY—65型中压水电解制氢装置,1986年3月投入工业试运转,取代了武钢硅钢片厂1976年由日本引进的常压制氢设备。
期刊
本产品为对加压水进行电解以制取氢气的成食装置,具有操作压力高、设备紧凑、占地面积小、槽体使用寿命长等特点。制氢量为2.5~60立方米/小时,纯度大于或等于99.8%;制氧量为1.25~30立方米/小时,
期刊
《中国建筑美学》的作者认为,“实用理性”是中国传统美学精神的重要特色。“理”指“伦理”和“物理”,作者分别论述了这两个方面在建筑中的作用。作者对中国传统建筑的基本概念作了深入浅出的概括,如单体建筑的“正式”与“杂式”、群体布局中的庭院式与非庭院式及其五种基本型制和十种交叉型制等。
江西省修水县花山洞钨矿床地处下扬子地块江南东部隆起带之九岭隆起,位于下扬子成矿亚区江南中部钨锡铜金金属成矿带九岭中段,东距大湖塘矿集区仅60km,区内化探异常强烈,构造发育,晋宁期花岗闪长岩体隐伏展布,成矿条件非常优越。随着勘查工作的不断深入,在该区隐爆角砾岩筒附近发现了厚大的“一区四型”钨矿体,该矿床已成为近年来发现的有较大潜力的矿床之一,其规模有望达到大型以上。本文在充分收集前人资料基础上,以
高温超导铜氧化物正常态的异常行为是一个引起广泛注意的研究问题。现在普遍的认识是铜氧化物在欠掺杂区超导转变温度以上的某个特征温度对应于自旋赝能隙的打开。另外也有许多实验表明,最佳掺杂的铜氧化物在220 K附近存在着某种转变,在低温内耗谱上观察到一个损耗峰。为研究该转变的具体机制,我们研究了不同杂质替代的Y123系列样品的内耗行为,给出了该转变与载流子行为变化的可能联系。通过高温淬火去氧,我们得到了欠
学位
通过对我国高职院校中药学专业人才需求和课程思政内容的研究实践,将课程思政教育目标融入专业课程教学过程中,在日常授课过程中强调专业内容与课程思政教育相融合,通过现代教育方法,打破传统课堂活动中的各种约束,大力开展高职院校中药学专业课程思政建设,形成课程思政教育润物细无声,有助于更好地培养德才兼备的高素质人才。探索了高职院校课程思政融入中药学专业教育的理论和方法,希望能为高职院校中药学专业课程的教育改
本文考虑由单相多铁材料构成的超晶格的极化激元能带结构及物理应用。单相多铁材料的3d电子的非满壳层占据以及无对称中心的结构使得磁序和铁电序共存。一般的多铁材料也是压电和压磁材料,它具有压电和压磁性,把这些具有相反电极化和磁化的相邻畴在空间沿某一方向周期性排列而构成超晶格。这样系统就受压电系数、压磁系数和磁电系数的周期性调制,它导致在体材料出现的声频支折叠,这为声子支和光子支的交叉提供了可能性,折叠后
管道是石油运输的一种主要工具,一旦发生泄漏或阻塞等事故,将会造成巨大的经济损失,因此对石油管道进行监测极其重要。与输气、输水管道不同,石油管道在运输过程中对原油的流速、温度、压力等参数要求严苛,需要大量不同类型的传感器进行监测,成本极高。网络规模需要根据环境灵活地扩大或减小。现有的监测网络难以满足石油管道监测工作中降低网络成本、增加网络扩展的灵活性等需求。无线传感器网络(WSN,wireless