论文部分内容阅读
强化学习是一类学习“做什么”的机器学习算法。它的目标是学习一个策略函数来解决序列决策问题,也就是将环境的一系列状态映射成一个动作序列以最大化整体行为的数值奖赏。不同于监督学习,强化学习的智能体不会被告知要采取哪些动作,而是通过尝试去发现产生最大奖赏的动作。基于探索产生的非最优的行为数据,强化学习可以学习到最优或近似最优的策略。近年来,强化学习陆续在围棋,星际争霸,DOTA等游戏或者仿真环境中战胜了人类世界冠军。但是,由于一系列在实践中不能满足的假设,使得许多强化学习的研究难以在现实世界中应用:(a)不支持在线学习,多数强化学习算法假设智能体可以通过在线与环境交互,并从智能体产生的经验中学习。然而在真实世界中智能体在线产生样本的成本高且风险大,往往只能依靠外部策略产生的历史数据进行离线学习。(b)无指定的奖赏函数,即使依赖专家知识,真实系统也难以清楚地指定一个奖赏函数,例如医生很难直接量化病人的治愈率。(c)高维度动作空间,先进的AI系统往往需要推理大规模的动作空间,例如在药物推荐或者商品推荐场景中,药物和商品的数目成千上万。过去十多年,监督学习方法以数据驱动为核心,利用监督信号在一系列真实世界问题上取得成功。受此启发,针对上述强化学习在真实世界应用中的三个关键挑战,本文运用离线数据,专家数据和领域知识中的监督信号,系统研究了监督信号引导的强化学习技术。并面向三类社会价值导向的应用:医疗,农业和金融对提出的方法进行了验证,因为这三类应用分别存在上述的三个关键挑战。本研究的主要内容包括以下几个方面:1.研究行为策略监督的强化学习方法。在强化学习中,与环境交互的策略被称为行为策略,需要学习的智能体策略被称为目标策略。真实世界的应用往往存在一些外部行为策略产生的历史数据。例如,医生对病人的治疗策略和农场工作者的农作物种植策略。针对难点(a),本文结合提前收集的行为策略数据,在不与环境交互的情况下学习智能体的策略,并研究了两种行为策略引导的强化学习算法:(1)本文首先提出监督强化学习模型,将行为策略的动作与智能体动作的差异作为一种增广的奖赏信号,两类奖赏信号相互协同,提高了离线学习的有效性,并在序列药物推荐场景进行了验证。(2)本文针对稀疏行为策略数据提出带约束的强化学习算法。该方法首先约束智能体策略和行为策略的分布,再基于约束的策略空间搜索出智能体的策略。该方法通过校正日志策略和智能体策略的状态-动作分布偏差,并在农作物生长自动控制任务中进行了验证。(3)最后,为了对智能体策略进行离线评估,本文提出多策略的离线策略评估方法,用于在不和环境交互的情况下,只基于行为策略的数据和智能体策略函数来估计策略的性能,并在理论上证明了所提出的估计方法具有更小的估计偏差。2.研究专家策略监督的强化学习方法。针对难点(b),模仿学习通过直接复现专家的策略轨迹来学习智能体策略,模仿学习的主要分支叫逆强化学习,它首先学习一个使得专家轨迹奖赏最大的奖赏函数,再基于该奖赏函数学习智能体策略。在真实应用场景中,由于专业知识的不同,专家的轨迹往往同时包含正样本(例如:存活病人数据)和负样本(例如:死亡病人数据)(1)本文首先提出将正样本和负样本结合训练的合作对抗模仿学习算法,其中正样本引导智能体学习正确动作,负样本引导智能体避免执行错误动作。本文在理论分析和实验中证明了所学的智能体策略与正样本分布接近同时与负样本分布距离更远。(2)复杂的人类活动通常可以分解为各种简单的子策略为了解决多种子策略混合的模仿学习问题,本文进一步提出层次模仿学习方法,该方法利用上下文感知的赌博机学习一个高阶策略,并利用模仿学习学习一系列子策略来模仿复杂的专家策略。本文在序列药物推荐中验证了以上方法的有效性。3.研究领域知识监督的强化学习方法。针对难点(c),本文将高维动作空间强化学习问题转化为多智能体强化学习问题,将每一维度的动作看作是一个智能体,通过对相似智能体共享策略来解决高维度动作空间的挑战。本文研究了利用领域知识来区分智能体并让相似的智能体共享策略的两类多智能体强化学习方法。(1)本文首先提出了一种层次多智能体强化学习方法,将智能体策略划分为多个类别,其中每个类别共享一个策略。该方法基于智能体的轨迹以及领域知识将整个策略分解为一个管理者策略和多个子策略,让M个智能体共享K个策略,其中K远小于M。从而大大降低智能体过多带来的计算复杂度。为了解决智能体数目不断变化的问题,(2)本文进一步提出了智能体无关的多智能体强化学习模型,它通过领域知识学习以智能体表征为条件的策略。该方法通过智能体的表征来区分不同智能体的策略,从而更好的解决新旧智能体不断交替的问题。本文在腾讯的合约广告平台验证了方法的有效性。综上所述,本文系统地研究了监督信号引导的强化学习方法,以解决强化学习在真实世界应用时面临的三个关键挑战。本文首次在多病症治疗,农作物生长自动控制和合约广告流量分配中验证了强化学习方法的可行性和有效性。部分研究成果已经在荷兰瓦格林根大学真实的温室,以及腾讯的广告平台中取得效益提升。