基于逆向强化学习的报酬函数构建

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gb1107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,强化学习和学徒学习作为机器学习的两个子领域得到了极大的发展。在目前的强化学习技术中,报酬函数的自动构建是迫切需要解决的问题。对于学徒学习,首先要构建出专家的报酬函数才能从专家的演示轨迹中得到专家的控制策略。本论文的研究内容是报酬函数的自动构建问题,该问题被称为逆向强化学习问题。逆向强化学习的思想是在一个马尔可夫决策过程问题中,观察专家在其中的行为轨迹,并依据该专家轨迹还原或近似“还原”与其对应的专家报酬函数,解决了一些环境中不能具体描述报酬函数的问题。  本文的研究内容分为两个方面。一方面将基于灵敏度的学习优化问题的思想与标准逆向强化学习相结合,得到一种基于灵敏度的逆向强化学习分析框架。该分析框架将报酬函数仅与状态有关的基本逆向强化学习推广到报酬函数不仅与状态有关而且与行动有关的情况。另一方面将逆向强化学习算法分为两大类,并对这两类方法加以比较。一类是在值函数空间内的方法,另一类是在策略空间内的方法,其中在值函数空间内的方法包括基于最大边际的逆向强化学习和基于多维权重的逆向强化学习,在策略空间内的方法为基于梯度的逆向强化学习。  本文以带折扣因数的马尔可夫决策过程作为环境模型。以方格迷宫作为实验平台,验证了基于灵敏度的逆向强化学习分析框架的有效性和可行性。并在该实验平台上运行在值函数空间内和在策略空间内这两类逆向强化学习算法,通过比较实验结果总结出各方法的优缺点以及各自适应的环境。
其他文献
非线性现象是自然界最普遍的现象,是自然界的本质.非线性系统的提出和研究,促使不同学科相互渗透融会,大批新兴学科应运而生,逐步诞生了探讨复杂性现象的非线性科学。非线性科学
在图像处理和计算视觉领域,颜色信息是辨识物体的重要特征之一。然而由于成像设备并不具备人眼视觉系统的颜色恒常性功能,图像的颜色会随场景光源的不同而改变。为了消除场景
能源危机已经日益加重,开发和利用可再生能源是解决能源危机的主要手段。风能是一种绿色清洁新能源,以其环保、可再生等特点备受人们的关注。风力发电机是获取风能的主要手段,随着风力发电等相关理论研究的深入,风力发电厂已遍布全球,风力发电机所发出的电能占全球总发电量的比重正在不断上升。变桨距风力发电机以其良好的启动性能和高风速自调节性能,必将逐渐取代定桨距风力发电机,成为未来风力发电机的主要装机类型。因此,
光通讯技术的迅猛发展使全光网络成为可能,光开关作为实现全光网络的基础性器件,在推进全光网络实用化方面具有迫切需求。迄今为止,已发展了多种多样的光开关技术。有别于传
时滞系统是一类具有很强实际背景的系统,近些年来引起越来越多学者的关注。含有不确定性的系统也一直是控制界学者研究的一个热点。本文以一类含有区间时滞的不确定系统为研
随着现代工业的快速发展,相应的工厂设备如精密数控机床、工业机器人等对“驱动源”——伺服驱动系统提出了越来越高的要求。光电编码器作为伺服驱动系统中最常用的位置检测环
永磁同步电机(PMSM)因其本身具有重量轻、效率高、体积小、控制性能好等优点,在高性能伺服系统中得到广泛应用。然而永磁同步电机及其控制系统的控制性能会受到电机参数的影
复杂系统的控制问题一直是控制界的难题之一。针对实际控制问题中存在的被控对象参数或结构发生变化等情况,传统方法往往得不到预期的控制效果。本文在传统控制方法的基础上,结
随着嵌入式系统开发的日益成熟以及互联网技术应用的飞速发展,基于互联网技术的嵌入式系统的开发与应用已经得到了越来越多的关注,并逐步应用于农业、工业、水利、电力、交通
本文在总结研究国内外HBV数学模型研究和参数辨识技术的基础上,基于改进的乙肝病毒、肝细胞和免疫系统相互作用机理的HBV动力学模型,对乙型肝炎各种临床典型症状进行了仿真,