论文部分内容阅读
作为一类具有多学科交叉特点的机器学习方法,强化学习在复杂的决策优化和控制问题中具有广泛的应用背景。但对于大规模或连续状态和动作空间的马氏决策问题,强化学习面临着“维数灾”问题,从而限制了强化学习方法的进一步推广应用。为此,本文主要在大规模和连续空间下强化学习的理论及算法方面进行系统深入的研究。本文的主要内容和研究成果如下:
首先,研究了离散状态和离散动作空间的强化学习问题,提出了一种基于资格迹机制的加权递归最小二乘多步Q学习算法,能够实现在线增量式学习,有效提高了算法的计算效率,并运用离散鞅理论对算法的收敛性进行了分析。
其次,针对具有连续状态空间下的控制问题,设计出一种自适应的强化学习算法。在Actor-Critic框架下,用一个归一化RBF网络同时逼近Critic的值函数和Actor的策略函数。由于Actor和Critic对网络输入层和隐层资源的共用,使得算法比较简单,同时实现了对状态空间的在线、自适应构建。
第三,提出了一类连续状态与连续动作空间下的加权Q学习算法。利用RBF网络实现标准的Q学习,完成对离散动作效用值的逼近,然后采用加权规则对离散动作的效用值进行加权,得到作用于系统的连续动作,从而实现了将Q学习的应用扩展到具有连续动作空间的控制问题。
第四,利用模糊推理的可理解性与RBF网络的学习能力,首先构建了一类基于模糊RBF网络的模糊强化学习体系结构,然后基于此体系结构,分别设计出模糊Actor-Critic学习和模糊Q学习。这两种学习算法具有泛化性能好、网络结构紧凑、自适应和自学习的特点。
第五,设计出一种基于动态Elman网络预测模型的非线性直接多步预测控制器,将时间差分算法与BP算法相结合,对网络权值的实时调整进行渐进计算,并采用单值预测控制算法进行控制量的在线滚动优化计算。该方法具有结构简单、运算量小、速度快的特点,并且对系统参数的变化具有一定的自适应性。
最后对取得的研究成果进行了总结,并展望了需要进一步研究的工作。