论文部分内容阅读
针对智能Agent运动中普遍存在的避障问题,结合强化学习具有的试错和环境交互获得在某状态下选择动作的策略以及无导师在线学习等特性。在介绍强化学习的原理、分类以及主要算法(TD(λ)、Q_learning、Dyna、Prioritized Sweeping、Sarsa)的基础上,对TD(λ)、Q_learning的算法进行分析,并将其应用到实验中。实验结果表明,强化学习中的、TD(λ)Q_learning等算法在不同情况下都能高效地解决避障等问题。