论文部分内容阅读
增强学习能有效解决不确定序贯决策优化问题,近年来已发展成为机器学习领域的一个研究热点。如何克服高维连续空间带来的“维数灾难”,实现增强学习算法在连续空间中的泛化,是增强学习进一步发展并向工程应用领域推广的关键,是本文的主要研究内容之一。另一方面,随着应用范围的扩大,移动机器人将面临更加复杂多变的未知环境,这对移动机器人的智能导航控制技术提出了更高的要求。如何提高移动机器人的自主导航能力和对环境的自适应能力,是实现移动机器人在未知环境中成功应用的关键问题。本文对基于值函数逼近与状态空间分解的增强学习方法进行了深入研究,并将其应用于移动机器人在未知环境中的自主避障控制。取得的研究成果包括:1.提出了一种基于k-均值聚类的表示策略迭代学习方法。本文首先研究了基于图拉普拉斯算子的表示策略迭代(RPI)算法,然后利用聚类分析改进了构图点的选择方法,提出了基于k-均值聚类的RPI算法,仿真结果表明该方法能有效提高RPI算法的泛化性能。2.研究并实现了倒立摆系统的实时学习控制。本文在线性值函数逼近方法研究的基础上,将表示策略迭代(RPI)算法及其改进后的算法用于无模型的倒立摆实时学习控制,取得了较好的控制效果,对增强学习的实际工程应用进行了有意义的探索。3.提出了一种基于空间分解的结构化表示策略迭代(HRPI)方法。首先研究了结构化增强学习算法,然后将RPI算法与状态空间分解方法相结合,提出了一种基于状态空间分解的结构化增强学习方法HRPI。该方法根据近似值函数将状态空间分解为不同的子空间,然后在各子空间中分别进行策略学习。仿真结果表明该方法在求解时间最优问题时具有良好的泛化性能。4.提出了一种基于改进RPI的移动机器人自主避障控制方法。本文首先介绍了未知环境中移动机器人自主避障问题的MDP建模方法,然后,将滚动窗口路径规划和RPI算法相结合,提出了一种基于RPI的移动机器人自主避障控制方法,并通过仿真与实验测试了该方法的泛化性能与避障效果。实验结果表明基于RPI的反应式避障导航控制方法能有效实现移动机器人在未知环境中的自主避障。