论文部分内容阅读
随着科技的不断进步,日益复杂的实际问题已经渐渐超出了单个智能体所能处理的范畴,更多大型的实际应用需要很多个智能体共同合作完成,因而多智能体技术得到了愈来愈多研究人员的关注,这项技术也在过去二十多年得到了快速发展。其中,强化学习技术作为多智能体领域一个研究热点,也经历了较大的发展,它能够对多智能体系统搜索最佳解提供解决方案。Q学习是强化学习最主要的学习算法之一。蚁群算法是模拟自然界蚂蚁群体行为的一种群智能优化算法,它通过对真实蚂蚁群体的智能行为研究,进而抽象出理论算法,对处理众多问题带来了新的办法。本文通过将蚁群算法的信息素概念引入到多智能体系统中来实现同Q学习算法的结合,将信息素也纳入到动作指导信息中。信息素的引入让整个系统中的智能体在进行行为决策的时候,不单单依靠环境信息,而是考量信息素和环境因素的综合效应来选择行动,这样就加强了各个智能体之间的信息交互,从而能有效地提高原有算法的学习效率,更好的协作完成目标任务。而对于结合的蚁群算法,针对信息素的更新策略,采用了改进的蚁群算法更新模式。首先对于信息素挥发因子ρ,采用了自适应调整的方式,这样就得到了结合蚁群算法自适应调整信息素挥发因子更新信息素的Q学习(APEF_Q),从而更大的提高了原有算法的搜索能力与收敛效率,最后通过围捕问题模型进行计算机仿真,结果证明了改进后的算法相较于原有算法,在性能上有明显的提高。其次,对于信息素强度,利用动态的时变函数取代原有的常数项模式,这样得到了结合蚁群算法自适应调整信息素强度的Q学习(AP_Q),对于这种改进算法,采用了环境更为复杂的三维空间的围捕模型,通过加大难度的计算机仿真实验对改进的算法进行性能分析。通过与原有算法的对比,有效证明了改进后的算法更为可靠,算法效率也有了较为明显的增强。最后,同样采用难度较大的三维空间仿真模型,对基本Q学习、结合基本蚁群算法信息素机制的Q学习(Ant_Q)以及两种结合改进蚁群算法信息素机制的Q学习(APEF_Q和AP_Q)这四项算法进行了实验对比。通过结果分析可以得出,结合了蚁群算法信息素机制的Q学习,相较于基本Q学习,在性能上有明显的提升。