生成对抗模仿学习的改进方法研究

被引量 : 0次 | 上传用户:a13600660175
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在强化学习中,智能体不断与环境交互并根据环境给出的评价式反馈信息学习最优控制策略。但是当环境没有提供反馈信息或是反馈信息不能准确地被量化时,强化学习方法的应用会受到很大限制。模仿学习是一种不依赖环境反馈信息的学习方法,其从专家示范轨迹中就能学得性能良好的控制策略。针对模仿学习方法的学习效率以及多模态模仿学习的性能问题,本文提出一种加快学习速度的框架以及提升多模态模仿学习性能的方法。主要的研究内容可概括为如下三个部分:(1)在生成对抗模仿学习中,生成器和判别器之间存在一个博弈。判别器的目标是尽可能准确的区分生成样本和专家样本,而生成器的目标是尽可能产生与专家样本类似的样本使判别器不能准确区分。在学习过程的每一轮迭代中,生成器与环境交互得到生成样本,但是这些生成样本只在此轮迭代中用于学习,之后便被抛弃。这样生成样本的利用率极低,同时大量的环境交互在现实情况下会有很大的成本,尤其是在一些涉及安全问题的环境中。针对这一问题,本文提出一种从失败经验中进一步学习的方法,根据历史的失败经验,使学习过程能够更快跳出失败策略的范围,进一步加快学习速度。(2)模仿学习研究中专家示范轨迹一般都是由状态-动作对组成,还有的专家示范轨迹只由状态信息组成。但是当可以获取全量的专家示范信息时,更完整的专家示范信息意味着能够学得一个更接近专家的策略。从专家示范轨迹的角度,本文提出一种从状态-动作-下一状态组成的专家示范轨迹中学习的方法,以进一步提高模仿学习方法的性能。(3)多模态模仿学习问题旨在从具有多种模态的专家示范中学习一个多模态的策略,即智能体处于同一状态时,不同模态下可能会做出不同的决策。带有辅助分类器的生成对抗模仿学习是一种从带有模态标签的专家示范中学习的方法,其中辅助分类器用于对所有样本根据模态进行分类,与生成器之间构成合作关系,生成器产生的样本具有强分离性,易于辅助分类器分类。当不同模态的样本之间存在交叠部分时,生成器就会避免产生此类样本,因为辅助分类器无法准确区分,这会大大影响最终学得的策略。针对这一问题,本文先从理论角度对问题进行分析,进一步提出一种带有双辅助分类器的多模态模仿学习方法。额外的辅助分类器只对生成样本根据模态进行分类,其与生成器之间产生一个对抗过程,使生成器减少产生此类具有强分离性的数据,以提高学得多模态策略的性能。
其他文献
目的 在社区高血压的疾病管理工作中,实施健康教育,并分析其应用效果。方法 选取60例高血压患者作为观察对象,分组方式为随机,将其分为两组,即对照组(n=30)和观察组(n=30),实施常规干预者为对照组,在常规干预基础上增加健康教育为观察组。实施不同的干预方式后对比两组人员的血压水平、疾病自我管理能力、生活质量以及疾病知识知晓情况。结果 两组社区高血压患者分别接受不同的干预方式后,对其进行全面的评
目的 探讨超声评价自拟活血疏肝方口服配合针刺加脐灸在肾虚血瘀型复发性流产(RSA)中的应用价值。方法 选取2020年4月—2021年4月新疆乌鲁木齐市中医医院收治的RSA患者100例,按随机数字表法分为观察组(50例)和对照组(50例)。对照组使用自拟疏肝活血方治疗,观察组在此基础上配合针刺加脐灸治疗。比较两组激素水平、子宫内膜容受性、不良反应发生情况。结果 治疗后观察组雌二醇、孕酮水平均高于对照
新闻调查研究是中国共产党新闻舆论工作的基本方法和优良传统。党的新闻舆论工作坚持新闻调查研究的成功经验,主要体现在要坚持实事求是的“真实观”,以人民为中心的“群众观”,调研手段创新的“科学观”。在媒介技术突飞猛进的当下,更应该坚持完善新闻调查研究的制度建设,营造良好舆论环境;提高新闻工作者职业素质,增强社会责任感;善用新闻调查研究新技术,走好网络群众路线,最终实现新闻调查研究观在网络时代的价值回归。
<正>近日,中共中央办公厅印发《关于在全党大兴调查研究的工作方案》,并发出通知,要求各地区各部门结合实际认真贯彻落实。《方案》明确了在全党大兴调查研究的总体要求,指出要坚持以习近平新时代中国特色社会主义思想为指导,全面贯彻落实党的二十大精神,紧紧围绕党的理论和路线方针政策、党中央重大决策部署的贯彻执行,
期刊
目的 探讨康妇灵片联合甲硝唑呋喃唑酮栓治疗慢性宫颈炎的临床疗效。方法 选取2020年7月—2022年5月南阳市中心医院妇科收治的116例慢性宫颈炎患者,按照随机数字表法分为对照组和治疗组,每组各58例。对照组患者给予阴道外用甲硝唑呋喃唑酮栓,用一次性手套将药栓置入阴道后穹窿部位,睡前用药,1枚/次,隔日1次。治疗组在对照组的基础上口服康妇灵片,3片/次,3次/d。两组均连续用药7 d。观察两组的临
<正>教学实录(执教:贾志敏)一、故事导入,引出课题(师课前板书字词:领袖、吩咐、饶恕、押、狠心、肝脏、挽弓搭箭)师:同学们好!一起读这两个字,预备,读——(板书:故事)生:故事。师:读得快一点行吗?生:故事。师:同学们十有八九都喜欢听故事,连我这个七十几岁的老人还喜欢听故事,故事里面有欢笑,故事里面有精彩,故事里面还有智慧。故事分为好几种:
期刊
【目的】:分析不同出血量的高血压性脑出血患者神经元特异性烯醇化酶的变化与患者神经功能缺损程度及其预后的相关性,为评估高血压性脑出血患者远期预后提供理论上的依据。【方法】:选取2021年1月至2021年12月延安大学咸阳医院神经外科收治的36例符合入排标准的脑出血患者,入院立即采集患者的临床资料、影像资料。根据出血量分为A组(20ml-30ml)、B组(30ml-40ml)。分别检测病例入院时(发病
针对人体生物学特点及户外步行助行要求,设计了一款下肢步行助力外骨骼机器人。为实现外骨骼机器人对人体下肢助力柔顺性目标,研究并提出了模糊自适应PID控制方法。在MATLAB/SIMULINK中搭建仿真模型,比较外骨骼关节力矩控制分别采用传统PID及模糊自适应PID控制算法的跟随效果。由仿真和试验结果可知,模糊自适应PID算法相较于经典PID算法具有响应速度快、超调量小等优点。模糊自适应PID算法对关