论文部分内容阅读
差分演化(Differential Evolution,DE)作为一种基于种群的全局优化算法,具有不受梯度信息限制和控制参数少等特点,被广泛应用于传统数学方法无法求解的复杂优化问题中。DE中不同的变异策略具有不同的搜索性能,选择和问题特征相匹配的变异策略会极大地提高算法的搜索性能,因此自适应变异策略选择成为提升DE算法性能的最有效方法之一。然而,现有的变异策略自适应选择方法通常以近几代演化数据的统计分析为依据,缺少对演化过程中历史成功变异策略信息的累积学习,从而导致在面向复杂问题时演化搜索效率低下。强化学习(Reinforcement Learning,RL)作为一种自主决策方法,凭借其优异的累积学习能力被逐步用于演化算法的辅助搜索中,强化学习辅助的自适应变异策略选择已经成为了目前DE算法研究的热点。虽然目前基于强化学习的变异策略自适应选择方法一定程度上提升了个体的变异策略自主选择能力,但在演化计算领域对强化学习辅助变异策略选择方法的研究仍然处于初步阶段。基于此,本文从种群累积历史成功变异策略信息的学习方式、累积历史成功变异策略信息的利用、提升种群累积历史成功变异策略信息的学习效率等方面入手,提出了强化学习辅助变异策略自主选择的三种改进DE算法。本文主要研究内容包含以下三点。(1)在种群累积历史成功变异策略信息的学习方式方面,建立了基于强化学习的变异策略自主决策模型,该模型将DE的搜索过程映射成马尔可夫决策过程:以适应度值提升率为基础定义状态空间,不同搜索性能的变异策略组成动作空间,Q表存储种群累积历史成功变异策略信息(状态-动作转移概率矩阵),通过个体适应度值的累积提升率对个体进行奖励和惩罚,折扣因子用于调节个体的学习能力。基于上述模型提出了一种学习累积种群历史经验的改进差分演化算法(A Differential Evolution with Autonomous Strategy Selection by Learning Cumulative Population Historical Experience,ASS-DE)。在ASS-DE中,个体的适应度值累积提升率用于指导个体选择更为合适的策略,并通过Q表中存储的种群累积历史成功变异策略信息使得个体获得更好的状态以提高其适应度值。此外设计了一种带存档的参数更新机制来进一步提高算法的收敛性能。最后,将ASS-DE与一些先进的DE算法在CEC2005和CEC2015测试集及无人机协同对抗优化问题上进行优化性能比较。实验结果表明,所提的ASS-DE具有更好的收敛能力,进一步验证了累计学习机制的优势。(2)在种群累积历史成功变异策略信息的挖掘和利用方面,提出了一种带有种群回溯机制的差分演化自主策略选择方法(A Differential Evolution Autonomous Strategy Selection Method with Population Backtracking Mechanism,PBM-DE)。在演化停滞时,将种群回溯到适应度值提升最快的一代,进一步利用已学习到的经验信息来指导个体的重新搜索。该方法与自主变异策略选择相结合,平衡了算法的局部搜索和全局勘探性能。此外,为了降低个体回溯的学习成本,在PBM-DE中缩小了状态空间的大小。最后,为了提高算法的全局搜索能力,在状态空间中引入了一种新的基于历史最优个体的搜索策略“DE/current-to-best-hbest/1”。为验证PBM-DE的算法性能。将PBM-DE与ASS-DE和一些优秀算法在测试集CEC2015和CEC2017及小波降噪优化问题中进行优化性能比较。实验结果表明,PBM-DE具有更加优异的收敛性能。(3)在提升种群累积历史成功变异策略信息的学习效率方面,提出了一种基于动作空间分组学习的差分演化自主策略选择方法(A Differential Evolution Autonomous Strategy Selection Method based on Action Space Grouping Learning,AGL-DE)。其中,动作空间分组学习将演化搜索行为按种群多样性进行划分,当种群多样性较高时采用具有探索性的动作空间进行搜索,反之则采用更具利用性的动作空间。此外,采用个体与上一代的相似程度来指导个体的学习,以提高算法的收敛速度。最后,为了验证AGL-DE算法的性能,将其与ASS-DE、PBM-DE以及一些先进算法在优化标准测试函数集合CEC2015和CEC2017上进行优化性能比较,同时将AGL-DE用于解决强化学习迷宫搜索问题。实验结果表明,AGL-DE相比于PBM-DE、ASS-DE和先进算法相比,在保持多样性方面具有一定的优势,具有更好的求解精度和收敛速度。综上,本文以强化学习辅助的DE变异策略自适应选择为研究背景,通过将DE搜索过程映射成马尔可夫决策过程建立了基于强化学习的变异策略自主选择模型,在此基础上,从种群累积历史成功变异策略信息的学习方式、累积历史成功变异策略信息的利用、提升种群累积历史成功变异策略信息的学习效率等方面入手,提出了强化学习辅助变异策略自主选择的三种改进DE算法。论文成果一方面丰富了强化学习辅助的自适应变异策略选择方法体系,另一方面在整体提升DE算法求解复杂优化问题的性能上具有重要的理论价值和科学意义。