论文部分内容阅读
强化学习是解决决策和控制问题的一种有效方法,然而对数据依赖性高、学习时间长、易发生维数灾难,如何提高强化学习的学习效率成为关键。多粒度模型描述方法以智能体为中心,是一种对环境和对象进行建模的信息表示方法,而迁移学习能够通过对先前特征信息和数据经验的学习,将一个或多个源域任务的学习经验用于解决新的任务。由于环境存在不确定性,单纯的迁移强化学习可能会存在负迁移等问题,因此本文在强化学习、多粒度模型和迁移学习研究的基础上,提出基于迁移学习的多粒度强化学习方法。在多粒度强化学习中,对环境模型进行粒度化,提高强化学习和迁移学习算法对环境的认知和理解,避免维数灾难和负迁移,从而提高迁移强化学习的效率。学习过程中使用多粒度模型作为知识迁移的对象和载体,在不同粒度之间架起了学习迁移的桥梁,设计了多粒度迁移强化学习算法。此外,针对提出的算法,利用迷宫问题和倒立摆问题进行了多组实验仿真,并完成了移动机器人导航控制实验,以验证所研究方法的有效性。本文具体内容包括:(1)定义了多粒度模型,系统提出了基于迁移学习的多粒度强化学习算法,包括从细粒度到粗粒度的迁移、粗粒度到细粒度的迁移,以及相似任务不同粒度间的迁移,详细说明了算法原理及流程;(2)针对典型应用,即栅格迷宫问题、倒立摆控制问题以及室内导航问题,分别设计了数值仿真实验和实际系统实验,验证基于迁移学习的多粒度强化学习算法的有效性,并对实验结果进行分析与讨论。相关结果对于强化学习算法及典型应用的研究具有重要的参考价值和实用意义。