论文部分内容阅读
支持向量机(SVM)是基于统计学习理论的一种机器学习方法,它具有全局最优解和良好的泛化性能等优点。强化学习是一种无监督的机器学习技术,能够利用不确定的环境下Agent所获得的奖赏来发现最优的行为序列,因此被广泛用于Agent的智能决策。但标准的强化学习算法不能适用于连续状态空间和动作空间的学习。本文针对RoboCup中的具体问题,一方面通过支持向量回归方法来解决RoboCup中球员截球问题,一方面在强化学习中引入支持向量分类技术来解决强化学习中连续状态表示问题,使其适用于RoboCup复杂环境下的Agent智能决策。本文的主要研究工作如下:(1)针对RoboCup中截球问题引入了支持向量回归方法,它通过采集样本训练预测模型来预测agent成功截到球时球运动过的距离。为了达到更好的预测效果,对此模型的参数选择问题进行了相应的研究。最后将此预测模型与广义回归神经网络等传统方法相比较,结果表明在截球距离的预测精度方面要优于传统的广义回归神经网络。(2)针对RoboCup中强化学习的连续状态表示问题,提出一种新的基于SVM分类的强化学习系统,其基本思想是通过SVM良好的泛化性能,先将整个状态空间划分为若干个区间以提供状态的可区分度,然后在此基础上建立状态到动作的映射关系。实验表明,该方法不但能学习到最优策略,并能通过SVM从有限小样本空间泛化到整个状态空间,从而有效解决连续状态空间的表示问题。