一种基于元学习的改进深度强化学习算法

来源 :扬州大学学报(自然科学版) | 被引量 : 0次 | 上传用户:Morakot
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的深度强化学习算法在解决任务时与环境交互量大且样本复杂度高,导致智能体的训练时间长,算法难以收敛,故在实际问题中的应用受限.针对该问题,在智能体采用梯度下降方法更新模型参数的过程中融入元学习思想,提出一种改进的深度强化学习算法,使得智能体利用在训练任务中学习到的先验知识快速地适应新任务.仿真结果表明:改进的深度强化学习算法可实现智能体在新任务上的快速适应,其收敛速度和稳定性等均优于传统算法.
其他文献
于2015-2020年每年1月采用样区直数法对东鄱阳湖国家湿地公园18个样区的水鸟进行1次监测,探讨6年间水鸟数量和多样性指数的变化规律.共记录水鸟7目12科47种87 433只.雁形目种类占绝对优势,其个体数占水鸟总数量的75.33%.共记录国家Ⅰ级重点保护鸟类4种(白鹤Grus leucogeranus、白枕鹤Grus vipio、东方白鹳Ciconia boyciana和黑鹳Ciconia nigra)以及国家Ⅱ级重点保护鸟类5种.水鸟数量和物种数主要由雁形目和鸻形目鸟类组成,雁形目水鸟数量呈上升趋
静态箱气相色谱法是最为普遍的温室气体监测方法,监测过程中埋放静态箱底座造成的土壤扰动可能会影响实验初期排放数据的准确性.为了解这一过程对泥炭地甲烷排放的确切影响,选取泥炭沼泽、沼泽草甸和高寒草甸为研究对象,利用静态箱气相色谱法监测不同类型泥炭地在模拟增温、节雨及其交互作用下的甲烷排放通量.结果表明,整个为期两年的实验中,甲烷平均排放通量为7.1 mg m-2 h-1,且甲烷在实验布设的前半年集中排放,其排放通量是下一年同一时期排放通量的37倍.对比实验初期(实验布设半年内)和实验后期(实验布设下一年同一时
以临江林业局的长白落叶松人工林带状皆伐迹地为研究对象,分别在皆伐带宽度为20 m、30 m、40 m的带状皆伐迹地设置样地,在附近未采伐林分设置对照样地,对样地进行林下草本层多样性调查和土壤化学性质测定.结果表明:(1)样地调查中记录到草本植物71种,隶属33科66属,皆伐后草本植物数量明显增多,其中20 m皆伐带最多达到38种.且对照样地与皆伐样地呈中等不相似,说明其生境不同,草本植物种类也不尽相同;(2)对于物种多样性来说,20 m皆伐带Pielou均匀度指数最高,Simpson多样性指数、Shann
为有效求解Toeplitz矩阵填充问题,提出两种加速临近梯度截断算法,分析了新算法的收敛性.数值实验结果证实了新算法的可行性和有效性.
研究Sweedler 4-维Hopf代数H4 Drinfeld偶D(H4)的Grothendieck环G0(D(H4))的自同构群,给出了G0(D(H4))所有环自同构的表达式,并证明了Grothendieck环G0(D(H4))的自同构群同构于Klein群K4.
为确保三相逆变器系统能在干扰下保持良好的动态和稳态性能,设计了一种基于复合干扰观测器的三相逆变器抗干扰控制方法.首先,建立含干扰的三相逆变器系统数学模型;其次,设计基于复合干扰观测器的三相逆变器抗干扰控制方法,能同时准确估计和补偿负载侧突变干扰和输入侧周期性干扰,并进行严格的闭环系统稳定性分析;最后,通过仿真验证了该控制方法的有效性.
基于江淮地区逐日降水的低频分量将2020年梅雨期划分为6个阶段,采用全球大气环流三型分解方法研究各阶段大气环流的演变特征,揭示超强梅雨的形成机理.结果表明:经圈型环流在江淮地区引起的强烈大气上升运动是2020年超强梅雨形成的关键因素;强降水阶段,高空南亚高压和中高纬槽脊系统的相互作用引导北方冷空气不断南下;西太平洋副热带高压长期偏强、位置偏西北,驱动其西北侧的低空西南暖湿气流持续向江淮地区输送;高低层冷暖空气在江淮地区辐合,形成梅雨锋和强烈上升运动,引发多次强降水过程,导致2020年梅雨异常偏强.
空气负离子(NAI)是评价空气清洁程度的重要指标,但城市绿地NAI的不同来源及相对贡献国内外尚未见报道.为更好地理解NAI在城市区域的生成机制,运用静态箱隔离法对典型城市草坪(Zoysia matrella)不同来源(植物、土壤、大气本底、外源)的NAI进行动态观测,并采集气象站同步数据,分析各来源NAI的浓度值、贡献率及影响因素.结果显示:不同来源NAI日变化特征不同.保留植物的静态箱内NAI浓度日均值为1 478个/cm3,峰值可达2 522个/cm3;植物来源、土壤来源、大气本底来源的NAI日均值分
针对一类磁悬浮列车半转向架结构系统的分散输出反馈抗干扰控制问题,通过适当的坐标变换将磁悬浮列车半转向架结构系统的输出跟踪控制问题转化为2个子系统的分散输出反馈抗干扰控制问题,并利用广义比例积分状态观测器技术,分别为2个子系统设计扰动观测器来估计系统测量的状态和干扰;利用扰动观测器的输出信息和输出反馈占优技术为各个子系统设计分散输出反馈抗干扰控制器.理论分析结果表明,在所给出的分散输出反馈抗干扰控制器下,整个闭环系统的状态将收敛到可调的任意小的区域内.仿真结果验证了所给控制算法的有效性.
为了解林下植被物种多样性随林龄的恢复轨迹,在广东省龙眼洞林场采用空间替代时间的方法,选取以相同方式经营的6个林龄序列(10、15、20、25、30和34年)的红锥(Castanopsis hystrix)人工林为研究对象,利用α和β多样性指数分析物种多样性随着林龄的变化趋势.结果显示:(1)共发现植物32科45属51种,其中灌木层物种有23科33属39种,草本层有9科12属12种.(2)灌木层和草本层的物种丰富度随着林龄的变化趋势类似,呈现先增加后下降的趋势;Simpson优势度指数和Shannon-Wi