高维异质环境的模仿学习方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:majiguo1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模仿学习研究智能体如何通过对给定专家示范进行模仿以学得专家策略的学习问题,近年来受到越来越多的关注。现有的模仿学习方法难以解决专家示范的状态高维、状态空间与智能体所处的环境异质、以及可能出现新动作示例的问题。本文针对这些问题开展研究,主要取得了以下创新成果:1.提出了针对高维输入的模仿学习方法Hash Reward,通过使用有监督的哈希技术对高维输入进行降维,使得奖赏函数达到“奖赏”-“判别”的平衡,从而有效激励策略学习,理论分析指出该方法能达到该平衡所需的条件,实验结果验证了所提方法的有效性。2.提出了针对专家示范的状态空间与学习环境异质的模仿学习方法IWRE,通过使用重要性加权和拒绝学习技术来处理学习过程中分布和支撑集不匹配的问题,以对奖赏函数的学习进行修正,实验验证了所提方法的有效性。3.提出了针对专家示范可能出现新的动作示例的模仿学习方法SENNE,通过使用最近邻集成的技术,从监督学习的角度来处理不同难度下的该学习问题,实验验证了所提方法的有效性。
其他文献
随着工农业快速发展,人类不断向自然界排放污染物,土壤出现严重重金属砷、铅、镉污染问题。通过呼吸或手—口接触等途径,人体尤其是儿童可摄入土壤,进而暴露于有毒重金属。此前研究多基于土壤中重金属总量进行健康风险评估,然而重金属摄入后只有进入体循环的部分才能对人体产生危害,因此研究重金属的生物有效性(bioavailability)可实现土壤健康风险的准确评估。当前,通常使用小鼠稳态暴露法来测试重金属的相
移动互联网与物联网是现阶段移动通信的两大驱动力,二者共同催生了一个以巨大流量和广泛应用场景为特点的移动互联社会。接入设备的大量增加、数据流量的爆炸式增长和新型服务的发展对传输时延、连接密度以及频谱利用率等技术指标都提出了更高的要求。OFDM技术凭借其实现简单、抗多径衰落等特点在4G中得到广泛的应用。但其也存在带外泄露严重、频谱效率较低等缺点,难以满足5G环境下的多样化需求。新型多载波技术作为5G的
有效介质理论(Effective Medium Theory,EMT)是一种形式简单、应用广泛的均质化理论,它对于复合材料的性能预测起到了极大的作用。Maxwell-Garnett有效介质理论(Maxwell-Garnett Effective Medium Theory)是该理论的重要组成部分。全介电复合材料在深度亚波长的情况下因处于准静态而严格遵循Maxwell-Garnett有效介质理论。然
研究背景:肿瘤的上皮间充质转化(epithelial-mesenchymal transition,EMT)是具有上皮表型的细胞向间质型细胞转变的过程,它能使细胞失去极性和细胞间的黏附,使细胞获得迁移和转移的能力,在癌症的发生发展中至关重要。该过程发生时,基质蛋白酶分解细胞基质,肿瘤细胞获得转移能力,细胞离开原位置侵袭循环系统,进而在远处脏器形成转移灶。因此,EMT是肿瘤获得恶性表型的关键机制,包
围绕煤矿智能化建设,从多任务场景、多用户协同交互、交互信息多元化3个方面对智能矿山设备人机交互的特征进行了分析,介绍了虚拟现实、增强现实、脑机接口、智能可穿戴设备等新兴交互技术和图形交互、语音交互、面部识别、手势识别等交互方式在智能矿山设备中的应用,为人机交互技术在智能矿山建设中的应用提供思路。
海雾是一种发生在海洋上低层大气中的水汽凝结(华)现象,是一种灾害性天气现象。掌握海雾的分布与生消变化,能有效地减少海雾带来的危害。卫星遥感具有近实时、大范围覆盖、连续观测等特点,特别是新一代静止气象卫星观测系统,具有10分钟一次观测的特点,为更好地跟踪监测与分析研究海雾的发生-发展-消亡过程提供了高频次的遥感观测数据。论文首先利用日本新一代静止气象卫星(Himawari-8,H-8)对比分析了海雾
植物在面对外界病原菌入侵时,会通过自身免疫系统中的MAMP(微生物相关分子模式)和DAMP(危险相关分子模式)两种分子模式来应答。MAMP是由病原菌产生的物质,如细菌鞭毛蛋白flg22。DAMP是由植物自身产生的物质,如危险相关肽pep1。它们均由植物细胞上的模式识别受体PRRs识别并传递给下游,进而放大免疫信号。PRRs主要分为受体类激酶RLKs和受体类蛋白RLPs两种,植物体中的大部分PRRs
圆偏振发光(CPL)材料在受激发后会发射出左旋和右旋强度不等的偏振光,用于液晶显示和有机发光二极管器件时,可实现高对比度三维图像的显示效果,因此具有广阔的应用前景。然而,同时获得具有高发光不对称因子(gem)和高发光量子效率(ФFL)的CPL材料是一个研究难点。液晶是一种兼具各向异性和流动性的软物质,本文以发光液晶分子构建CPL材料体系,通过液晶高效的自组装过程使体系获得更加有序的螺旋结构,实现手
人工湿地技术作为污水处理的重要工艺之一,在城市废水处理、工业尾水处理、农业养殖业污水处理等方面有越来越广泛的应用。大型水生植物作为人工湿地的重要组成之一,发挥着重要的生态功能。人工湿地植物经常遭受污染浓度超标、高盐等胁迫,造成其生长不良,影响其功能的发挥,因此水生植物的筛选是人工湿地的重要工作。相关领域已开展了大量研究,不同的研究对于水生植物比较结果存在较大差异,甚至存在相反的结果,导致这些结果适
近年来,随着深度学习的高速发展,卷积神经网络(Convolutional Neural Networks,CNNs)已成为图像分类、目标检测、语义分割、深度估计等各种计算机视觉任务的主流方法。目前基于深度学习的目标检测模型往往利用大型卷积神经网络提取特征以获得更高的精度。这些模型需要高端的GPU芯片以实现实时运算。这使得目标检测模型难以部署在计算资源受限的边缘设备上。为了解决深度学习模型在计算资源