半马氏环境下的逆向强化学习算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:weaselhyp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习在智能决策领域有着极其重要的作用。报酬函数作为强化学习的重要元素,通常是凭经验人为设定,不仅缺少理论支持,在面对复杂情况时也有较大的局限性。作为强化学习的逆过程,逆向强化学习通过学习专家策略或演示轨迹最优程度上还原出隐藏的报酬函数,为强化学习中报酬函数的选取提供理论支持,为其自动构建提供了科学方法。现有逆向强化学习算法大都将动态环境建模为Markov决策过程,忽略了时间这一重要因素。半Markov决策过程为描绘时间因素提供了有效模型,但关于该环境下逆向强化学习的研究还处于起步阶段,针对这方面的不足,本文开展对半马氏环境下逆向强化学习算法的研究。本文首先结合灵敏度思想,通过分析半马式环境下策略间性能差公式的特殊结构,得到报酬函数的最优性充分条件,给出半马式环境下适用于小状态空间的基于性能灵敏度的逆向强化学习算法,利用凸优化问题直接还原未知报酬函数值。针对大状态空间采用有限特征基函数的线性组合来逼近报酬率函数,并从不同角度给出半马氏环境下三种逆向强化学习算法,将对报酬函数的还原研究转化为特征基权重的构造问题。值函数空间内,学徒逆向强化学习算法通过引入策略的特征期望向量表示平均报酬,间接通过策略间性能的匹配来还原报酬函数。策略空间内,基于自然梯度的逆向强化学习算法结合策略损失函数与自然梯度,利用梯度增量更新方法直接从策略匹配的角度还原隐藏的报酬函数。概率空间内,基于最大熵的逆向强化学习算法通过收集专家示例样本轨迹,结合最大熵理论与似然函数还原满足限制的报酬函数,该方法适用于专家策略不易得到但专家轨迹更易获取的情形。本文通过带通道的方格迷宫仿真平台与无人车仿真平台验证了上述算法的收敛性与有效性,为半马式环境下报酬函数在不同空间的研究提供了有效方法,扩大了逆向强化学习相关理论及算法的适用范围,这对逆向强化学习算法的拓展研究与应用具有重要意义。
其他文献
上世纪末,美国前副总统戈尔率先提出了“数字地球”的概念,在全世界范围的学术界、产业界引起共鸣。以此为契机,以3S技术为代表的空间信息技术,在各行各业信息化中优势互补,
随着载人航天技术的发展,空间对接技术已成为各国十分关注的问题。空间对接技术是建立载人空间站必须解决的关键技术,也是我国航天事业进一步发展所迫切需要解决的问题。为了
金融安全是国家安全的重要组成部分,无论对于传统商务还是电子商务,各种纸质票据和电子票据防伪的重要性都是不言而喻的。由于票据防伪技术有限,尽管各商业银行按照人民银行
从1969年全球第一个计算机网络ARPA网建立起,互联网已存在近半个世纪,但真正成为人们日常生活的一部分,是在20世纪90年代,且直到90年代中期以后才被理论界所关注。理论界的研究虽
随着生态市概念的提出、生态城市理论的发展和人们对可持续发展认识的深入,以追求人与自然和谐共存,社会、经济、生态同步发展为目标的生态化运动正在世界范围内蓬勃开展,生态城
低噪声潜艇的辐射噪声源级已接近于海洋环境噪声,在要求的测量距离,由于传播衰减,传至测量点的信号级将低于该处的环境噪声级。为解决低噪声潜艇辐射噪声测量的难题,海军试验基地
作为人机界面的重要组成部分,报警系统的设计很关键。报警系统设计不完善,非常容易导致人因事件或引起事件的扩大,甚至导致重要设备损坏,将直接影响核安全。论文以福建福清核
采用电荷充电原理和电容充能原理,推导出两个原理下不同的等效线性电容表达式;然后在3种不同频率下,分别对无寄生电容、两种不同的等效线性寄生电容这3个状态进行PSPICE仿真
近年来,我国已开展了羊肚菌培养的研究,但通常是采用固体培养法,对其菌丝球液体培养的研究尚不多见。为此,我们进行了羊肚菌液体菌种培养配方的研究,以期为羊肚菌菌种的生产
自2015年3月以来,“互联网+”成为了时下炙手可热的概念之一。人们的生活也随着近几年互联网的不断渗透而发生巨大的改变,其中基于位置的服务,如导航、打车、代泊、代驾等,已