论文部分内容阅读
强化学习和规划技术在目标上有着很高的相似性,而在技术上又具有互补性,因此,基于强化学习的Agent规划规则抽取问题长期以来一直是研究的热点。针对基于强化学习的多Agent系统在规划规则抽取方面存在的问题,提出了一种从多Agent Q学习中抽取满足规划条件的规划规则的RL—MAPRE算法,并给出了理论分析。