监督信号引导的强化学习及其应用

来源 :华东师范大学 | 被引量 : 0次 | 上传用户：lmnlmnbalance

【摘要】

：

【作者】

：

王露

【机构】

：

华东师范大学

【出处】

：

华东师范大学

【发表日期】

：

2021年01期

【关键词】

：

强化学习深度学习离线强化学习模仿学习多智能体强化学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是一类学习“做什么”的机器学习算法。它的目标是学习一个策略函数来解决序列决策问题,也就是将环境的一系列状态映射成一个动作序列以最大化整体行为的数值奖赏。不同于监督学习,强化学习的智能体不会被告知要采取哪些动作,而是通过尝试去发现产生最大奖赏的动作。基于探索产生的非最优的行为数据,强化学习可以学习到最优或近似最优的策略。近年来,强化学习陆续在围棋,星际争霸,DOTA等游戏或者仿真环境中战胜了人类世界冠军。但是,由于一系列在实践中不能满足的假设,使得许多强化学习的研究难以在现实世界中应用:（a）不支持在线学习,多数强化学习算法假设智能体可以通过在线与环境交互,并从智能体产生的经验中学习。然而在真实世界中智能体在线产生样本的成本高且风险大,往往只能依靠外部策略产生的历史数据进行离线学习。（b）无指定的奖赏函数,即使依赖专家知识,真实系统也难以清楚地指定一个奖赏函数,例如医生很难直接量化病人的治愈率。（c）高维度动作空间,先进的AI系统往往需要推理大规模的动作空间,例如在药物推荐或者商品推荐场景中,药物和商品的数目成千上万。过去十多年,监督学习方法以数据驱动为核心,利用监督信号在一系列真实世界问题上取得成功。受此启发,针对上述强化学习在真实世界应用中的三个关键挑战,本文运用离线数据,专家数据和领域知识中的监督信号,系统研究了监督信号引导的强化学习技术。并面向三类社会价值导向的应用:医疗,农业和金融对提出的方法进行了验证,因为这三类应用分别存在上述的三个关键挑战。本研究的主要内容包括以下几个方面:1.研究行为策略监督的强化学习方法。在强化学习中,与环境交互的策略被称为行为策略,需要学习的智能体策略被称为目标策略。真实世界的应用往往存在一些外部行为策略产生的历史数据。例如,医生对病人的治疗策略和农场工作者的农作物种植策略。针对难点（a）,本文结合提前收集的行为策略数据,在不与环境交互的情况下学习智能体的策略,并研究了两种行为策略引导的强化学习算法:（1）本文首先提出监督强化学习模型,将行为策略的动作与智能体动作的差异作为一种增广的奖赏信号,两类奖赏信号相互协同,提高了离线学习的有效性,并在序列药物推荐场景进行了验证。（2）本文针对稀疏行为策略数据提出带约束的强化学习算法。该方法首先约束智能体策略和行为策略的分布,再基于约束的策略空间搜索出智能体的策略。该方法通过校正日志策略和智能体策略的状态-动作分布偏差,并在农作物生长自动控制任务中进行了验证。（3）最后,为了对智能体策略进行离线评估,本文提出多策略的离线策略评估方法,用于在不和环境交互的情况下,只基于行为策略的数据和智能体策略函数来估计策略的性能,并在理论上证明了所提出的估计方法具有更小的估计偏差。2.研究专家策略监督的强化学习方法。针对难点（b）,模仿学习通过直接复现专家的策略轨迹来学习智能体策略,模仿学习的主要分支叫逆强化学习,它首先学习一个使得专家轨迹奖赏最大的奖赏函数,再基于该奖赏函数学习智能体策略。在真实应用场景中,由于专业知识的不同,专家的轨迹往往同时包含正样本（例如:存活病人数据）和负样本（例如:死亡病人数据）（1）本文首先提出将正样本和负样本结合训练的合作对抗模仿学习算法,其中正样本引导智能体学习正确动作,负样本引导智能体避免执行错误动作。本文在理论分析和实验中证明了所学的智能体策略与正样本分布接近同时与负样本分布距离更远。（2）复杂的人类活动通常可以分解为各种简单的子策略为了解决多种子策略混合的模仿学习问题,本文进一步提出层次模仿学习方法,该方法利用上下文感知的赌博机学习一个高阶策略,并利用模仿学习学习一系列子策略来模仿复杂的专家策略。本文在序列药物推荐中验证了以上方法的有效性。3.研究领域知识监督的强化学习方法。针对难点（c）,本文将高维动作空间强化学习问题转化为多智能体强化学习问题,将每一维度的动作看作是一个智能体,通过对相似智能体共享策略来解决高维度动作空间的挑战。本文研究了利用领域知识来区分智能体并让相似的智能体共享策略的两类多智能体强化学习方法。（1）本文首先提出了一种层次多智能体强化学习方法,将智能体策略划分为多个类别,其中每个类别共享一个策略。该方法基于智能体的轨迹以及领域知识将整个策略分解为一个管理者策略和多个子策略,让M个智能体共享K个策略,其中K远小于M。从而大大降低智能体过多带来的计算复杂度。为了解决智能体数目不断变化的问题,（2）本文进一步提出了智能体无关的多智能体强化学习模型,它通过领域知识学习以智能体表征为条件的策略。该方法通过智能体的表征来区分不同智能体的策略,从而更好的解决新旧智能体不断交替的问题。本文在腾讯的合约广告平台验证了方法的有效性。综上所述,本文系统地研究了监督信号引导的强化学习方法,以解决强化学习在真实世界应用时面临的三个关键挑战。本文首次在多病症治疗,农作物生长自动控制和合约广告流量分配中验证了强化学习方法的可行性和有效性。部分研究成果已经在荷兰瓦格林根大学真实的温室,以及腾讯的广告平台中取得效益提升。

其他文献

河口湿地典型生物类群对水文过程的响应 ——以长江口为例

河口湿地由于具有形成和发育过程特殊、环境特征独特、人口密集、生态系统服务功能众多、生物多样性丰富等特点,一直是海岸带研究的热点区域。咸淡水交汇的特殊地理位置,径流、潮流共同作用,使得河口湿地水文过程成为维持区域物质循环、能量流动的重要过程,同时对河口湿地生态系统物种多样性具有重要的塑造作用。本文以长江河口为例,通过历史数据搜集与整理、遥感影像与海图的分析和处理、野外固定样地观测等方法分析不同时空尺

学位

河口湿地水文过程植被底栖动物尺度响应

DNA张拉整体及拓扑纳米结构的设计及应用

在自然界中,生物大分子的显著特征之一就是其结构的复杂性。数以万计的原子以复杂的三维构型聚集在一起。结构的复杂性对于体内环境的有序调控起着至关重要的作用。人工设计并构建的生物大分子应具有强大的功能性,并且可实现自定义设置。建立具有明确结构的可实现特定功能的人工分子,一直是科研工作不断追求的目标。使用核苷酸或核酸分子构成的生物分子聚合物,弥补了传统无机纳米材料没有特异性识别功能的缺陷,这为体系中各个分

学位

DNA张拉整体DNA纳米拓扑结构分子计算平台DNA双轨逻辑电路

基于统计模态能量分布分析的中频声振耦合系统优化设计

工程装备在运行的过程中会产生不同程度的振动噪声,剧烈的振动噪声不仅会造成工程结构的失效破坏,更重要的是会影响人们的日常生活。因此减振降噪在实际工程领域具有重要意义。由于外部激励以及结构系统自身的复杂性,噪声在不同频率范围内具有不同的表现形式。低频范围内的噪声频谱分布比较明晰,高频范围内则呈现出均匀化的趋势,而中频区间恰恰表现出了二者混合的特点。另一方面,对于低频和高频噪声分析工作,分别已有较为成熟

学位

声振优化中频统计模态能量分布分析灵敏度分析粘弹性阻尼材料多孔吸声材料

基于多源遥感数据的城市物理空间与社会经济发展耦合关系研究

城市是大部分人类现在和未来生活的地方。全球快速的城市化不仅带来了经济和科技的高效和集聚,也带来了社会、环境和资源等方面的一系列城市问题。二十一世纪以来,全球国家、地区和组织都开始致力于解决城市发展问题,研究城市发展的科学途径,提出了“可持续发展目标（Sustainable Development Goals,SDGs）”、“新型城镇化”及“城市高质量发展”等目标或战略,科学测度城市发展状态作为其中

学位

城市物理空间城市社会经济夜间灯光遥感耦合关系格兰杰因果关系XGBoost

超流费米气体中光诱导时空模式

相互作用可调控的超冷费米气体为研究强相互作用的物理提供了很好的实验平台。特别地,当表征碰撞相互作用大小的低温散射长度可利用所谓的Feshbach共振调控为无穷大时,实现量子力学所容许的最强相互作用的量子气体,这确保了气体的行为与粒子间相互作用的微观细节无关,表现出与各种强相互作用系统相同的普适热力学性质。强相互作用的双组分费米气体是自然界其他奇特系统的原型,包括高温超导体、夸克胶子等离子体和中子星

学位

超流费米原子气体BEC-BCS渡越调制非稳时空分布声速

高校科研院所科研型师资团队的建设与管理问题研究

从我国科研院所设立与分布来看,我国科研体系已具备相应的规模以及相对独立的研究体系。农业科研院所是农业科学院下属的直接参与到农产品技术研发、食品科学技术研究的国家级科研部门,其是我国农业科研的关键部门,也是中坚力量。随着经济的快速发展,我国农业科研力量不断壮大,对建设地区农科研院所所需设备、经费、技术和政策的支持力度不断提高,为我国农业科技研究与创新提供更有利的外部环境。我国农科研院所团队的建

期刊

面向模型验证工具可靠性的模糊测试方法研究

模型验证是一种重要的自动化验证技术。给定一个软件或者硬件模型和相应的安全性质,模型验证技术可以自动化地验证模型是否安全,从而保证软件或者硬件系统的可靠性。该技术自提出以来就受到了广泛地关注,并很快被工业界应用在了实际的硬件设计及软件开发中,相应的模型验证工具也如雨后春笋一般层出不穷。然而,除了大型企业会为它们的特别需求设计专门的模型验证工具之外,在普通的硬件设计和软件开发流程中,模型验证技术的普及

学位

模型验证模糊测试SMT求解器计算机辅助验证

知识增强的情感分析关键技术研究

情感分析作为自然语言处理的重要子任务之一,在学术界和工业界都受到了广泛的关注。该任务的目标是预测给定文本中用户表达的情感,情绪,观点和态度等。许多平台（如论坛、博客、社交网络、电子商务网站、新闻报道和其他网络资源）都可以表达观点,对这些观点的分析,可以用来理解用户对社会和政治事件、企业方针、经营策略及商品属性等的态度,从而进行舆情监控,改进公司产品和服务等。传统的情感分析算法,大部分基于人工规则、

学位

情感分析深度学习知识迁移学习预训练

基于冷原子系综的单光子量子层析

单光子是飞行的量子比特,它具有运动速度快,与外界环境的相互作用较弱,适合长距离传输,以及量子态易操控等特点。因此它在量子科技领域中具有重大应用意义,并且在未来量子网络技术中也将扮演重要角色。此外,单光子作为量子比特在量子通讯以及量子精密测量等领域,具有十分重要的科学研究价值和技术应用的潜力。基于单光子源实现原子系综之间的量子纠缠交换、单光子态的隐形传输等也在原子系综中相继实现。冷原子系综这种介质平

学位

冷原子系综单光子时间模式量子比特量子层析

东中国海浮游植物种类遥感反演研究

海洋浮游植物是海洋初级生产者,是海洋食物链的基础组成部分,不仅对海洋生态系统的修复起着关键作用,对海洋乃至全球生物地球化学循环都起着重要的作用,因此,针对海洋浮游植物的科学研究具有重大的科学意义。相比于传统方法实地采样后再在实验室中通过显微镜进行浮游植物种类的区分研究,卫星遥感技术具有大范围、长时间周期以及高效率等优势,因此,通过卫星遥感技术来研究海洋浮游植物种类信息具有重要的科学意义。近年来,随

学位

浮游植物种类遥感反演丰度法高光谱深度学习环境与气候因子东中国海

监督信号引导的强化学习及其应用

与本文相关的学术论文