论文部分内容阅读
文章从介绍强化学习的基本模型、结构和原理开始,详细分析了强化学习的主要算法在倒立摆控制中的应用:AHC一层和两层网络,Q学习方法等。
针对目前强化学习方法控制倒立摆研究中存在的不能获得系统连续状态输入以及输出连续动作空间给倒立摆的问题,结合神经网络中BP网络和感知器网络的泛化特性,通过重新改造智能体的结构,提出了一种新的方法,对强化学习领域所出现的新的算法的尝试。结合遗传算法和神经网络的SANE算法目前被广泛应用于人工智能领域,本文将其在倒立摆平台上作同样的控制效果实验,结果证明了其相比于AHC和Q学习算法具有更好的学习速度和控制效果。
本文主要在前人对强化学习研究的基础上,结合本实验室的倒立摆设备,对各种强化学习算法进行控制实验研究,并尝试解决了原先存在的一些问题,经过实验,取得了良好的控制效果。