论文部分内容阅读
强化学习在智能决策领域有着极其重要的作用。报酬函数作为强化学习的重要元素,通常是凭经验人为设定,不仅缺少理论支持,在面对复杂情况时也有较大的局限性。作为强化学习的逆过程,逆向强化学习通过学习专家策略或演示轨迹最优程度上还原出隐藏的报酬函数,为强化学习中报酬函数的选取提供理论支持,为其自动构建提供了科学方法。现有逆向强化学习算法大都将动态环境建模为Markov决策过程,忽略了时间这一重要因素。半Markov决策过程为描绘时间因素提供了有效模型,但关于该环境下逆向强化学习的研究还处于起步阶段,针对这方面的不足,本文开展对半马氏环境下逆向强化学习算法的研究。本文首先结合灵敏度思想,通过分析半马式环境下策略间性能差公式的特殊结构,得到报酬函数的最优性充分条件,给出半马式环境下适用于小状态空间的基于性能灵敏度的逆向强化学习算法,利用凸优化问题直接还原未知报酬函数值。针对大状态空间采用有限特征基函数的线性组合来逼近报酬率函数,并从不同角度给出半马氏环境下三种逆向强化学习算法,将对报酬函数的还原研究转化为特征基权重的构造问题。值函数空间内,学徒逆向强化学习算法通过引入策略的特征期望向量表示平均报酬,间接通过策略间性能的匹配来还原报酬函数。策略空间内,基于自然梯度的逆向强化学习算法结合策略损失函数与自然梯度,利用梯度增量更新方法直接从策略匹配的角度还原隐藏的报酬函数。概率空间内,基于最大熵的逆向强化学习算法通过收集专家示例样本轨迹,结合最大熵理论与似然函数还原满足限制的报酬函数,该方法适用于专家策略不易得到但专家轨迹更易获取的情形。本文通过带通道的方格迷宫仿真平台与无人车仿真平台验证了上述算法的收敛性与有效性,为半马式环境下报酬函数在不同空间的研究提供了有效方法,扩大了逆向强化学习相关理论及算法的适用范围,这对逆向强化学习算法的拓展研究与应用具有重要意义。