面向多代理系统的逆向深度强化学习研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:qq243396832
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着逆强化学习的快速发展,并得益于深度学习强大的表达能力,深度逆强化学习的应用场景越来越广泛。然而,逆强化学习的成功依赖高质量的专家演示,但专家无法在复杂的多代理场景中保证演示的质量。在演示次优的情况下,逆强化学习缺少还原高效奖励函数的方法,极大地限制了算法的应用场景。此外,强化学习通常利用团队奖励训练协作策略,导致代理会混淆队友产生的团队奖励,此种情况下,基于策略梯度的强化学习算法缺少高效的应对方法。基于以上问题,本文的主要工作如下:(1)提出了多代理奖励外推算法。该算法认为次优专家演示的偏好关系隐含了优于演示合理性的奖励函数,同时,更合理的奖励函数能够引导代理习得超越次优专家的策略。算法的训练过程为:首先,在奖励函数未知的前提下,基于专家知识为次优演示添加排名标签,演示包含以任务为单位的小队状态轨迹集合。之后,以全局状态为输入预测团队奖励并对其归一化处理作为预测概率,结合排名标签,将问题转化为分类任务并以交叉熵损失函数训练奖励网络。最后,结合多代理强化学习算法,利用预测的奖励训练代理策略,并收集中途产生的状态轨迹替换初始专家演示。更新的演示可结合网络微调技术迭代训练奖励网络和代理策略。实验结果表明:多代理奖励外推算法能够在三次迭代内,基本还原任务的真实奖励,达到远超次优专家演示的性能。(2)提出了多代理策略分解梯度算法。该算法认为值分解网络可以有效地解决独立团队奖励导致的信誉分配问题,但同时限制了值函数的表达。因此,策略分解梯度算法基于动作-评论家结构增加策略分解网络,不限制原本的网络结构。算法的训练过程如下:首先,个体动作网络基于环境提供的局部状态信息计算动作概率分布,与环境持续交互,收集训练样本。之后,基于多代理奖励外推算法计算样本轨迹的奖励预测值,策略分解梯度算法既可以基于真实奖励训练,也可以基于奖励网络训练。最后,评论家模块基于时序差分方法训练,策略分解网络基于评论家模块的优势值学习每个代理的团队贡献比值,并将梯度反传至动作网络。实验结果表明:在预测奖励和真实奖励条件下,多代理策略分解梯度算法均优于同领域的相关算法。
其他文献
研究目的:探讨白蛋白-胆红素评分(albumin-bilirubin score,ALBI)评估肝硬化合并食管胃静脉曲张出血患者预后的价值,并与Child-Turcotte-Pugh(CTP)评分和终末期肝病模型联合血清Na评分(MELD-Na)进行比较。进一步探讨ALBI评分联合其他标志物(血清Na、AST)对于肝硬化合并食管胃静脉曲张出血患者预后的评估价值,用于指导临床实践。研究方法:回顾性分
目的:探讨QRS终末段扭曲(QRS distortion,也称Grade 3 ischemia,G3I)、额面QRST角(frontal QRS-T angle,fQRS-T角)对于急性ST段抬高型心肌梗死患者近远期预后的预测价值,找出fQRS-T角预测患者12个月及42个月内全因死亡的临界值,并比较这两项指标单独应用和联合应用时对预测价值的影响。方法:1.回顾性收集2017年1月1日至2017年
传统汽车生产线机械化线体采用最原始的悬挂式积放链输送形式,汽车吊具停止依靠撞击实现,造成吊具和轨道不可避免地出现晃动。同时生产线经历了因车型并入的多次改造,整体钢结构改动量较大,承载能力降低。如何在原生产线上实现车型改造及产能提升,缩短研发周期,降低研发成本,提高设计质量是当前车企的研究热点之一。有限元计算分析及结构优化是实现其关键结构(C型吊具)安全性和可靠性的有效手段。本文采用建模软件和编程语
在城市智能计算中,基于定位轨迹数据(GPS)和兴趣点数据(Points of Interests,POI)的城市功能区域划分,可以为城市道路规划、智能交通调度和基于位置的社区服务等多个方面提供有效支撑。然而,受限于城市区域的连通性、兴趣点分布的聚集性以及轨迹与区域功能之间的弱相关性,现有研究通常仅能实现行政区域级别的粗粒度划分,难以满足城市计算的需要。本文在城市计算背景下,针对城市功能区域划分这一
许多视障人士会像视力正常的人一样在日常生活中使用计算机来查询资料、阅读和书写电子文档以及收发电子邮件。对于视障用户来说,在使用计算机的过程中想要获取所需信息,这难免会遇到一些困难,使用感官替代的方式可以有效解决这些难题。其中应用最广泛的就是屏幕阅读器,因为它价格低廉且使用简单。屏幕阅读器的使用,解决了视障用户信息获取中遇到的诸多困难。对于一些非文本信息,开发者们大多使用附带相应文本描述信息的方式将
近年来,随着空气、环境质量的不断下降,以及人们在日常饮食中不能控制对亚硝基化合物的摄入,脑肿瘤成为威胁人们健康的常见肿瘤之一。随着医学影像的发展,作为影像技术之一的核磁共振成像(MRI)在肿瘤诊断过程中发挥着巨大的作用。然而,医生对图像的判断大都是根据主观经验,不同医生对图像判断也是略有出入,且在图像判别上浪费大量的精力,耽误患者的及时诊断。图像分割作为当前计算机视觉领域的一大研究热点,在脑肿瘤图
背景及目的:淋巴瘤是起源于淋巴结和淋巴组织的恶性肿瘤,分为霍奇金淋巴瘤(Hodgkin lymphom,HL)和非霍奇金淋巴瘤(non-Hodgkin lymphom,NHL)两大类。根据2016版WHO分型,NHL有170多种亚型,其中最常见的亚型是弥漫性大B细胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL),占全部NHL30%-35%。目前DLBCL一线治疗为
目的:探讨有氧运动对帕金森病临床症状的作用及其可能机制的研究。方法:选取就诊于吉林大学第一临床医院神经内科帕金森专病门诊的原发性帕金森病患者15例,保持原有抗帕金森药物剂量恒定不变,进行为期4周(每周3次,每次1小时)的有氧健身车运动。在基线、运动过程中、运动结束后及2周后随访各时间点采用量表评估运动和非运动功能,应用经颅多普勒超声观察脑血流自动调节功能变化,采用乳酸氧化酶法检测外周血乳酸水平。结
水稻作为一种全球最重要的粮食作物之一,其产量影响着全球人民的生活温饱甚至于全球的经济稳定。而稻瘟菌作为模式真菌,不仅严重影响水稻产量,还侵染其它重要的禾谷类作物,对确保全球粮食安全构成威胁。当前,稻瘟菌侵染机制中还存在一些关键问题尚未解决。由于传统生物实验或者计算方法只能鉴定互作过程中某一层次的相关标志物,很难展示真菌-植物互作全貌以及不同组学标志物间的内在联系,因此本文从多个组学数据入手,联合多