论文部分内容阅读
强化学习是机器学习领域中的一个重要研究方向。强化学习系统通过对环境反复试探的方式,学习环境状态到可执行动作的最优反应式映射策略,以获取最大回报。相比于其它学习技术,强化学习的显著优势在于它对先验知识的完备程度几乎没有要求,甚至在环境信息完全未知的情况下,强化学习仍具有较好的自适应性和鲁棒性。现实世界中,大多数的学习问题都具有状态空间或动作空间连续、任务描述难、目标性能不唯一的特点,且对学习算法的实时性和自适应能力有较高的要求。因此,为了拓展强化学习的应用范围,本文在如何提高学习速度和学习效率、如何进行合理的任务描述以及如何考虑多个性能指标的问题上,对强化学习进行了较系统的研究。系统地介绍了一种经典强化学习算法——Q学习算法的基本原理、主要步骤和存在的问题,并研究了它与其它几种常用机器学习技术的组合。研究了强化学习方法中的经验存储和利用问题。在分析了已有的几种有效的、相对独立的经验存储和利用方法的基础上,研究了一种将它们有机结合在一起的强化学习算法,并根据学习状态对时间的变化特性,对这种结合算法进行了改进,以提高学习经验的利用率,从而提高了算法的学习性能。研究了强化学习中的状态空间压缩技术。分别针对离散化的状态空间和连续状态空间的压缩问题,提出了基于信息熵的强化学习算法和基于自主生成神经网络函数逼近器的强化学习算法。前者利用对状态与目标之间的相关程度的度量,可以进一步压缩离散化的状态空间;后者利用进化算法的全局搜索能力来得到合适的函数逼近器结构和参数,可以减轻对神经网络函数逼近器的决策负担。二者均可以起到节约存储资源和计算资源,从而提高学习效率的目的。研究了多目标强化学习方法。针对目标间的不可公度性问题,提出了一种基于模糊推理的多目标强化学习算法。引入决策者对目标的偏好信息,并结合模糊推理系统,为多目标下两个动作决策之间的优劣比较提供了尺度,并为算法指明了学习方向。