小样本强化学习方法研究

来源 :苏州科技大学 | 被引量 : 0次 | 上传用户：rfvbgtyhnmju

【摘要】

：

【作者】

：

王哲超

【机构】

：

苏州科技大学

【出处】

：

苏州科技大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据驱动下的强化学习已经得到迅猛的发展,特别是在一些能生成大量样本数据的场景中,甚至达到超人类水平（如,围棋、雅达利游戏）。但这些成果都只是某一智能体于特定任务的表现。智能体表现出的对数据的贪婪性和对任务间较差的泛化性,是现今人工智能技术发展的主要瓶颈。小样本强化学习以加快学习进程、降低样本复杂度为目的,使强化学习能在采样困难、昂贵的场景中加以推广。在方法论上,小样本强化学习主要通过泛化经验中的知识,并使之能被当前任务利用。从认知过程的规律出发,在单个任务和一对一的双任务知识泛化上,重用先前的任务样本（过程性知识）就能获得很高的学习效率,但该方法主要适应于相似的任务间;对于多任务的泛化问题,由于任务集中存在较为复杂的相似关系,通常需要舍弃样本中反映的专有知识,转而通过共享同一个学习参数（陈述性知识）来增强学习效率,但其学习能力也随着任务间相似性的弱化而退步;此时平衡利用和探索,并强加对探索的引导,将提供更有效的方案。因此,本文主要针对样本重用、参数共享来讨论如何高效利用知识,并于其后,通过研究利用与探索的平衡问题来解决更为困难的小样本场景。研究包括以下三个部分:（1）基于精确Q的样本重用的算法研究。主要针对单个任务中大规模重用样本困难与基于Q学习的算法容易出现过估计导致收敛速度降低的问题,以线性函数近似中动作值更新规则为关键,通过将参数更新规则分解、调整,使之在一步更新中最大化利用“同类样本”,缓解对动作值的过估计、增加学习效率、降低算法样本复杂度。具体地,该算法首先将参数更新分解为三个不同的部分,同时给出了每个部分独立的更新规则;随后对存在最大化偏差的那一项,使用精确Q学习中重新估计的方法,根据当前值函数的估计,替换之前对当前后继状态的估计;进而独立更新三个部分后,将其累加得到当前的参数更新结果。（2）基于多层元的参数共享的算法研究。主要针对多任务中元学习方法训练的共享参数,对任务集中任务相似度要求较高,从而导致对于存在个别“孤立任务”的任务集反映出较差适应性的问题。该算法通过设计一个多参数、双层结构的元学习框架,循环任务聚类、元学习、再适应这些过程,将来自下游不同类别任务的知识传递至顶层的共享参数中,使之体现出对任务集较强的鲁棒性,缓解了负适应现象,有效节省了样本需求。具体地,提出一种根据参数距离计算任务相似性的方式,经过聚类将已知任务分为多个类别;在每个类别中分别使用元学习训练该类中共享参数（类参数）,并将次过程看成一个学习任务,基于这些任务再次使用元学习生成一个共享参数（元参数）;在适应新任务时,根据元参数的更新趋势判定任务类别,重置当前参数为该类别对应的类参数（再适应）。（3）基于鼓励熵的探索引导的算法研究。主要针对在差异性较大的任务间泛化知识时容易因过分依赖经验而导致较差的学习效果的问题。该算法通过定义一种既能鼓励策略探索、又能在加入奖赏后保持最优策略不变的鼓励熵,并在任务间迁移这种鼓励熵,在将其加入当前任务的奖赏后,使之能够引导探索,加快学习进程,更好地降低样本量。具体地,通过对在奖赏中加入策略熵生成鼓励探索策略的方法进行分析,提出其可能偏离原问题最优策略的现象;定义一种保证策略不变性的鼓励熵;根据先前策略的倾向,计算对应随机策略下的熵,以生成鼓励熵后加入当前任务的奖赏中,对之前策略不看好的区域优先探索。

其他文献

大跨度管桁架屋盖的施工全过程力学分析及研究

如今,大跨度钢结构在国内发展迅猛,由于社会科学技术的不断进步、人们生活水平的提高,人们对结构的外观的造型要求也越来越高。由于管桁架结构受力性能良好、空间的跨越能力强,因此广泛用于体育馆、图书馆、机场等大跨度结构中。但大跨度管桁架结构施工周期长、外形复杂,施工过程中需要考虑结构的受力及变形,因此本文以盐城体育馆管桁架屋盖结构实际工程为研究对象,对其进行施工全过程力学分析及研究,为相似实际项目提供理论

学位

基于区块链的微电网电能交易机制研究

在智慧城市背景下,随着多种分布式发电技术的发展,由各类分布式发电设备构成的微电网层出不穷,促使电能交易向分布式方向发展。在微电网中,具有发电能力的用户均可参与售电,交易多方可按需转换角色,直接进行交易,电能交易以分布式结构为主。然而,传统的电能交易机制由大电网集中控制,交易成员角色固定,呈集中式交易结构。随着交易规模及数量的增多,若将该传统交易机制简单应用至分布式电能交易中,一方面会增加交易系统运

学位

基于绩效提升视角的工业用地管理政策效力研究

自改革开放以来,我国城市化进程不断推进,逐渐出现工业用地低效、闲置、错配、失衡等问题,而现行政策约束机制、激励机制对政策执行者行为的干预效果不理想,出现地方执政“不敢为”、“不愿为”等现象,原因在于现有研究对绩效形成过程中行为主体的责权边界及其作用机制的关注不足,迫切需要构建适应新时代发展的政策制度。本文基于工业用地绩效与其管理政策效力之间的关联性及作用关系展开研究,以2004年至2016年江苏省

学位

基于群智能优化与RRT的室内AGV路径规划算法研究

在国家人口出生率逐年下降,老龄化日益严重的背景下,AGV可以很好地解决生产过程中劳动力短缺的问题。经过多年的发展,AGV已经成为建筑行业、工业生产、酒店服务等行业中的重要工具。通过对AGV路径规划算法的研究,有助于降低劳动力成本,提升效率,保障生产过程中人员的安全。路径规划算法是AGV提升性能的关键技术,由于现在生产环境逐渐复杂,对于AGV路径规划算法的研究一直是热点问题。本论文主要对RRT系列算

学位

行级空调下置式数据中心冷通道内的气流组织优化研究

随着全世界数字化趋势日益剧增,大型复杂数据中心的强化日趋重要,而提高制冷效率是降低数据中心整体能耗的关键性手段。对于传统的空调送风形式,送风距离长,IT设备冷量分配不均,易造成机房内部局部温度过高、能源浪费,需使用新型制冷技术来改善数据中心的气流组织,改善机柜所处热环境。为解决上述问题,对将房间级、行级、机柜级三种不同的空调系统制冷方式进行了介绍和优缺点的对比,并介绍了一种新型行级空调供冷系统,对

学位

火炮仰射跳角光学标定方法研究

现代化的军事作战中,炮弹的射击精度会不同程度地影响作战性能。由于炮弹发射的后坐力作用,炮弹的初速度方向偏离火炮身管轴线方向产生跳角。传统的火炮跳角测量方法会出现精度低、误差大等问题,且并未实际解决不同仰角射击下的跳角测量问题。本文主要研究火炮仰射跳角光学标定方法,主要工作有以下内容:针对传统的火炮跳角测量方法不能解决大角度仰射状态下的跳角测量问题,并且存在误差大、误测和漏测等不足,本文提出一种火炮

学位

基于深度迁移学习的GPCR残基互作用预测方法研究

蛋白质分子间稳定的互作用促成蛋白质复合体的结构形成,进而决定该蛋白质在人体生命活动中所行使的功能。G蛋白偶联受体（G Protein-Coupled Receptor,GPCR）是当前新药研发中最有针对性的蛋白质家族之一,此类蛋白质主要承担着细胞内和外部环境间的信号传递,是一种十分关键的信号分子受体,它们参与了众多复杂的生理功能活动。这其中GPCR残基间的互作用对其稳定的三级结构形成具有强烈的约束

学位

论迟子建小说的民间伦理

迟子建是当代文坛具有广泛影响力的作家之一,有着“极地之女”、“北国精灵”的美誉。迟子建始终以独特的姿态存在于人们的视野中,不追随任何一种思潮或流派,一直坚守自己独有的创作理念和审美追求。迟子建的小说紧贴民间大地,她在写作中对民间生命投之以温和的注视,书写东北黑土地上的人间百态。民间伦理作为迟子建作品中的经脉,是其搭建民间世界的材料。因此,本文选择将民间伦理作为一个切口,进入迟子建所建造的东北民间世

学位

基于光电检测与信息处理的风电机组建模与控制

为了降低成本,风电机组的单机容量越来越大,对其输出优质电能、稳定状态运行等方面也提出了更高的要求。对于风速和叶片载荷实时、有效的检测和可靠、精确的算法处理是实现对风电系统有效控制的前提与关键。本文针对传统的风速检测仪器无法有效地测量风轮轮毂处风速,现有风速估计方法存在精度差、滞后性等问题,提出了基于激光雷达的风速检测和轮毂处估算方法。首先介绍了激光雷达的远距离风速测量原理和方法,然后为了得到风机轮

学位

基于图神经网络的结构化知识库自动问答技术研究

结构化知识库自动问答任务面向自然语言问题文本与结构化知识库,通过模型学习生成SQL语句获取问答结果,是当前自然语言处理领域的重要课题。针对现有结构化知识库自动问答无法有效解决问题文本中存在的实体模糊、问题文本难以与知识库语义融合、答案生成不自然等问题,本文以中文结构化知识库的自动问答为研究对象,结合单个知识库、单轮问答场景,构建深度学习模型,实现自然答案生成,提升基于结构化知识库的问答效果。本文从

学位

小样本强化学习方法研究

与本文相关的学术论文