论文部分内容阅读
强化学习是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法。本文主要研究连续状态空间下的强化学习问题,并将神经网络应用于强化学习技术中,用来估计状态-值函数。
本文的主要研究工作及成果体现在如下几点:
1.分析强化学习中的连续状态空间问题,介绍当前使用的几种解决连续状态空间强化学习问题的方法,并指出使用神经网络进行函数估计来处理连续状态问题的优势。
2.使用神经网络作为函数逼近器的连续状态强化学习研究
分别设计基于BP、CMAC以及Fuzzy ARTMAP三种神经网络的连续状态强化学习算法。
提出基于BP的半增量训练模式,以及学习率优化方法;引入Fuzzy ARTMAP处理强化学习函数估计问题,提出基于Fuzzy ARTMAP的强化学习函数估计(RLFA)模型。在Mountain-Car环境中试验以上三种方法,并分析三种方法的优缺点。
3.将以CMAC网络为函数逼近器的强化学习算法应用于电梯群控系统中。在下行高峰模式下进行实验,实验表明强化学习能有效地减少乘客等待时间,提高电梯调度的性能,并相比基于BP网络的算法具有更优的性能。