对抗训练在强化学习模拟环境构建中的应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:zhzh06014201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模拟器的构建对于强化学习在真实环境中的应用有着极大的帮助,通过在模拟器中进行训练,我们可以有效的减少在真实环境中进行采样的所需的金钱和时间等代价。但是,现有的强化学习模拟环境的构建方法通常都存在泛化性较差的问题,而这个问题又会进一步导致在模拟环境中优化得到的策略在迁移至真实环境后的表现不稳定,从而缺乏鲁棒性。再加之真实环境中往往存在着部分行为方式随意性强、尝试通过攻击智能体策略获取收益的恶意攻击者,这些鲁棒性较差的策略在受到攻击时容易产生较大的性能损失。本文针对上述模拟环境缺乏泛化性、策略缺乏鲁棒性的问题,提出了以下两个新方法:1.在虚拟环境构建方面,针对现有的行为克隆等方法存在的泛化能力不足的问题,提出了扩展多智能体生成对抗式模仿学习(MAIL+)的方法。该方法在多智能体生成对抗式学习(MAIL)的基础上引入一个对抗式攻击者。该对抗式攻击者通过一个内部奖励函数进行强化学习训练,进而得到一个能够寻找环境模型中模拟精度较低的状态的策略。环境模型在训练中可将该对抗式攻击者作为采样策略的一部分,从而能够在虚拟环境模拟不准确的状态和专家数据集中未见的状态上进行训练,提高其泛化能力。2.在策略的训练方面,针对从虚拟环境中学习得到的策略在面对恶意攻击时缺乏鲁棒性的问题,提出了构建模仿+对抗式对手的混合对手模型(I+A)的方法。该方法在虚拟环境提供的模仿式对手之外引入了一个对抗式对手,在训练通过虚拟自对弈的方法保证该对手总能做出令智能体奖励函数最小化的最佳应对。智能体策略在训练中则可通过针对由模仿式对手和对抗式对手构成的混合对手进行优化,从而保证其策略能够同时有效的应对普通人类对手和恶意攻击者,进而使其在上线后能够应对真实物理环境中可能存在的恶意攻击,提高策略鲁棒性。
其他文献
随着用户生活方式的不断多样化,人们对位置信息服务的要求也日益提升。如今GNSS室外定位技术已经非常成熟,而室内定位技术仍处于发展阶段。至今还没有找到像GNSS一样普适的室内定位方法。现在主流的定位技术中尽管有像UWB定位、超声波定位、视觉导航等精度较高的定位方法,但要么造价昂贵,要么需要搭建大量基站,不利于广泛推广。Wi-Fi由于已经遍布我们的生活周围,不再需要额外建立基站,并且现在的智能手机中都
公共交通乘客上下站点对信息(Origin and Destination,OD)是公交运行管理与规划的重要基础数据,对分析与提高公共交通系统的运行效率具有重要意义。传统通过人工调查的方法,存在成本高且抽样低等缺点。近年来,智能卡大数据在提取OD信息上得到了广泛应用,然而智能卡数据缺乏乘客的下车信息,且数据带有一定的有偏性,反映真实的居民出行行为还存在一定的偏差。公交车监控系统已经在公交车内普遍使用
居民出行调查数据是城市规划和交通管理中的一个重要数据源,同时包含出行信息和人口统计属性信息。该数据通常采用入户调查或电话调查等方式获得,存在非实时、难以大规模展开和调查成本高等问题。当前,定位技术的进步、移动设备的广泛使用产生了海量的人类轨迹数据。如果把这些包含了居民出行信息的轨迹数据赋予相应的人口统计属性信息,这些数据将成为出行调查的有利补充数据,甚至改变出行调查的传统模式。当前,车牌识别数据已
在行人流量大的信号交叉口,行人在过街时和机动车易产生交通冲突,安全事故频发,行人过街的安全问题亟待解决。为了解决这一问题,可以在信号交叉口设置行人专用相位,从根本上消除人车之间的冲突,提高行人过街的安全性。由于行人专用相位的独特优势,更多的城市开始在人流密集的信号交叉口采用行人专用相位,获得了很好的成效。但是,关于行人专用相位设置条件没有统一的行业标准可以参考,因此开展行人专用相位设置条件的研究显
近年来,随着我国经济社会的快速发展以及人民生活水平的不断提高,城市机动车保有量不断攀升,交通需求与供给之间的矛盾越来越突出,由此导致的交通拥堵问题也已经严重影响到了城市的可持续发展。理解交通拥堵的形成过程及传播机理是提升道路交通管理水平,有效疏解交通拥堵的关键。然而,目前人们对于城市道路交通拥堵传播规律缺乏足够的、准确的认识,交通拥堵的治理多采用事后疏导策略,缺乏兼具针对性以及有效性的缓解与预防手
近些年来由于我国城市化进程的加快,地下排水管网作为市政基础设施的重要组成部分,也得到了飞速的建设。然而,在管道发展的同时,因管道的质量问题而发生的事故也接连出现,例如“城市看海”、“路面塌陷”、“黑臭水体”等。所以,对管道检测方法的研究,对及时发现管网质量问题,保证居民生命财产安全具有重要意义。而管道检测的关键技术为确定管道缺陷位置,即管道内定位。现有的管道内定位方法有管道内窥声呐检测定位法,区域
随着机动车保有量和使用强度快速增长,交通拥堵加剧。相比于普通人工驾驶车辆,智能网联车辆交通流拥有更稳定的行驶速度以及更小的车头时距。因此,智能网联车辆有望提高城市交通出行效率,缓解城市日常交通压力。本文围绕智能网联车辆交通流展开研究,从交通建模、路径规划、仿真实验及效益分析三个方面开展了具体研究。本文主要研究工作及成果如下:1)整理并总结了智能网联交通流的相关理论技术及行为特性,研究并提出智能网联
铅卤钙钛矿因其优异的光电性能,包括发射波长易调节、光谱吸收宽、消光系数大、荧光发射效率高、发射谱线窄等,在基础研究和技术应用领域受到人们的广泛关注。钙钛矿量子点被广泛应用于制备发光二极管器件,并在照明、液晶显示器背光源等方面展现出非凡的应用潜力。但是,铅卤钙钛矿的形成能较低,因此它们表现出较差的稳定性,例如易受环境中水分、氧气、光照、热等因素的影响,导致材料性能的衰退,甚至发生不可逆的降解。此外,
近年来,随着“公交优先”的发展理念出台,建设绿色低碳、高效出行的城市公共交通系统成为了缓解城市交通困局的重要策略。其中,轨道交通凭借着占地小、运量大及低耗高效的优势而在各大城市也得到了快速建设,成为了市民出行的主要方式之一。然而,由于轨道交通存在着基础设施建设周期长、线网密度低等问题,现阶段城市中部分地区的轨道交通运营服务能力与居民的出行需求仍然处于一个供需不平衡的状态。这种供需不平衡将会造成客流
随着我国城市化进程的加快,汽车保有量快速增长,人们交通出行需求也随之大量增加,导致城市交通系统供需失衡,交通基础设施建设相对滞后,城市交通拥堵问题凸显,城市居民出行需求与城市交通发展之间的矛盾日益突出。经国内外专家研究,公共交通优先发展战略能有效缓解城市交通拥堵问题。一方面公共交通具有运量大、出行成本低、环境污染少、道路资源利用率高等特点,另一方面随着国家对公共交通的重视,近年来公共交通在城市中的