基于强化学习的自主演化优化方法研究与应用

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:mylifefover12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
差分演化(Differential Evolution,DE)作为一种基于种群的全局优化算法,具有不受梯度信息限制和控制参数少等特点,被广泛应用于传统数学方法无法求解的复杂优化问题中。DE中不同的变异策略具有不同的搜索性能,选择和问题特征相匹配的变异策略会极大地提高算法的搜索性能,因此自适应变异策略选择成为提升DE算法性能的最有效方法之一。然而,现有的变异策略自适应选择方法通常以近几代演化数据的统计分析为依据,缺少对演化过程中历史成功变异策略信息的累积学习,从而导致在面向复杂问题时演化搜索效率低下。强化学习(Reinforcement Learning,RL)作为一种自主决策方法,凭借其优异的累积学习能力被逐步用于演化算法的辅助搜索中,强化学习辅助的自适应变异策略选择已经成为了目前DE算法研究的热点。虽然目前基于强化学习的变异策略自适应选择方法一定程度上提升了个体的变异策略自主选择能力,但在演化计算领域对强化学习辅助变异策略选择方法的研究仍然处于初步阶段。基于此,本文从种群累积历史成功变异策略信息的学习方式、累积历史成功变异策略信息的利用、提升种群累积历史成功变异策略信息的学习效率等方面入手,提出了强化学习辅助变异策略自主选择的三种改进DE算法。本文主要研究内容包含以下三点。(1)在种群累积历史成功变异策略信息的学习方式方面,建立了基于强化学习的变异策略自主决策模型,该模型将DE的搜索过程映射成马尔可夫决策过程:以适应度值提升率为基础定义状态空间,不同搜索性能的变异策略组成动作空间,Q表存储种群累积历史成功变异策略信息(状态-动作转移概率矩阵),通过个体适应度值的累积提升率对个体进行奖励和惩罚,折扣因子用于调节个体的学习能力。基于上述模型提出了一种学习累积种群历史经验的改进差分演化算法(A Differential Evolution with Autonomous Strategy Selection by Learning Cumulative Population Historical Experience,ASS-DE)。在ASS-DE中,个体的适应度值累积提升率用于指导个体选择更为合适的策略,并通过Q表中存储的种群累积历史成功变异策略信息使得个体获得更好的状态以提高其适应度值。此外设计了一种带存档的参数更新机制来进一步提高算法的收敛性能。最后,将ASS-DE与一些先进的DE算法在CEC2005和CEC2015测试集及无人机协同对抗优化问题上进行优化性能比较。实验结果表明,所提的ASS-DE具有更好的收敛能力,进一步验证了累计学习机制的优势。(2)在种群累积历史成功变异策略信息的挖掘和利用方面,提出了一种带有种群回溯机制的差分演化自主策略选择方法(A Differential Evolution Autonomous Strategy Selection Method with Population Backtracking Mechanism,PBM-DE)。在演化停滞时,将种群回溯到适应度值提升最快的一代,进一步利用已学习到的经验信息来指导个体的重新搜索。该方法与自主变异策略选择相结合,平衡了算法的局部搜索和全局勘探性能。此外,为了降低个体回溯的学习成本,在PBM-DE中缩小了状态空间的大小。最后,为了提高算法的全局搜索能力,在状态空间中引入了一种新的基于历史最优个体的搜索策略“DE/current-to-best-hbest/1”。为验证PBM-DE的算法性能。将PBM-DE与ASS-DE和一些优秀算法在测试集CEC2015和CEC2017及小波降噪优化问题中进行优化性能比较。实验结果表明,PBM-DE具有更加优异的收敛性能。(3)在提升种群累积历史成功变异策略信息的学习效率方面,提出了一种基于动作空间分组学习的差分演化自主策略选择方法(A Differential Evolution Autonomous Strategy Selection Method based on Action Space Grouping Learning,AGL-DE)。其中,动作空间分组学习将演化搜索行为按种群多样性进行划分,当种群多样性较高时采用具有探索性的动作空间进行搜索,反之则采用更具利用性的动作空间。此外,采用个体与上一代的相似程度来指导个体的学习,以提高算法的收敛速度。最后,为了验证AGL-DE算法的性能,将其与ASS-DE、PBM-DE以及一些先进算法在优化标准测试函数集合CEC2015和CEC2017上进行优化性能比较,同时将AGL-DE用于解决强化学习迷宫搜索问题。实验结果表明,AGL-DE相比于PBM-DE、ASS-DE和先进算法相比,在保持多样性方面具有一定的优势,具有更好的求解精度和收敛速度。综上,本文以强化学习辅助的DE变异策略自适应选择为研究背景,通过将DE搜索过程映射成马尔可夫决策过程建立了基于强化学习的变异策略自主选择模型,在此基础上,从种群累积历史成功变异策略信息的学习方式、累积历史成功变异策略信息的利用、提升种群累积历史成功变异策略信息的学习效率等方面入手,提出了强化学习辅助变异策略自主选择的三种改进DE算法。论文成果一方面丰富了强化学习辅助的自适应变异策略选择方法体系,另一方面在整体提升DE算法求解复杂优化问题的性能上具有重要的理论价值和科学意义。
其他文献
为保障生态文明建设,实现可持续发展,中国在2020年提出了双碳战略目标。作为近年来快速发展的综合性服务业,物流业的碳排放量一直在我国占据较大比重,为响应国家的双碳目标,急需由高碳排放发展模式向低碳发展模式转型,而环境规制是实现低碳物流转型的重要手段。目前关于环境规制的研究主要从单一环境规制工具的角度出发,较少考虑不同环境规制工具的交互作用;同时现有研究还发现环境规制对我国碳排放效率存在非线性的门槛
学位
视线估计技术是利用现有的不同检测方法获取用户当前注视方向的技术。视线估计在生活中发挥着越来越重要的作用。在注视的过程中,伴随着头部的运动行为,如何提高头部运动变化时中的视线估计精确度,是目前视线估计领域的一个挑战。本文提出使用眼动特征并结合头部运动变化特征的视线估计模型。论文主要研究了如下内容:1)眼动特征提取本文眼动特征主要包括瞳孔中心、眼角点以及二者构成的眼动向量。首先应用Haar特征和Ada
学位
当前光学遥感图像目标检测技术在军事、环境、城市规划、农业、林业等领域有着广泛的应用。与自然图像相比,遥感图像具有小目标多且密集分布、方向多样、背景复杂和目标尺度变化范围广泛等特点,这为通用目标检测算法在遥感图像上的应用带来了一定的挑战。对此也有很多针对性的改进算法被提出来,但是大多都只从遥感图像中的某一两个难点问题出发,而缺乏一定的综合性,其检测性能也很难达到在普通图像上的较高水平。为了能够更加快
学位
随着大数据信息化时代的到来,各个领域数据信息急剧增长,人们对数据信息处理技术的要求也越来越高。压缩感知突破奈奎斯特采样定律,很大程度上缓解了数据的获取和传输压力。传统的压缩感知重构算法需要进行多次迭代求解原始信号,使得算法计算速度慢,重构精度差,且不具有实时性等优势。近年来,随着深度学习的快速发展,深度神经网络技术在压缩感知领域的应用有效地提高了压缩感知重构的精度和效率,并引起学者们的广泛关注和研
学位
如今的互联网时代,大量的新闻出现在人们的日常生活中,需要人们花费更多精力和足够时间在庞大的信息库中去搜索和甄别我们感兴趣的内容,而文本自动摘要技术可以在不更改文章含义和不丢失其重要信息的前提下,概括出新闻的关键信息和主体内容,从而帮助人们减少阅读的时间。近年来指针生成网络模型(Point Generator Network,PGNet)的提出极大地促进了摘要生成技术的发展,有效解决了未登陆词无法生
学位
随着软件规模的不断增加和复杂性的提高,软件中存在的安全隐患也越来越多,这使得软件容易受到不法分子的攻击。为了有效提高软件的安全性,漏洞检测技术成为了软件安全领域的研究重点。由于图模型具有较强的表征能力,基于图模型的漏洞检测研究应运而生。然而,现存的图模型在源代码的表征过程中,存在图模型较为单一而导致的源代码表征信息缺失,使漏洞检测的误报率增加的问题。同时由于源代码结构复杂,导致对应图结构信息冗杂,
学位
随着生产力水平的发展,人们对于软件功能的需求不断增加,导致软件的体系结构也随之变得复杂,无形之中提高了软件中可能存在安全缺陷的概率。此外,代码复用也会给漏洞的传播提供可乘之机。一旦这些安全漏洞被不法分子所利用,所造成的损失不可估量。因此,如何保证软件安全成为人们亟待解决的问题。随着深度学习技术在图像领域以及自然语言处理领域获得了巨大的成功,大量的信息安全研究人员也开始使用深度学习的方法来进行漏洞检
学位
股权质押作为一种融资方式,具有成本低、限制条件少、操作简单等优势,受到了部分上市公司的青睐。股权质押虽具有诸多优点,但是也存在着潜在的风险。当控股股东进行高比例的股权质押活动时,会加大现金流权和控制权的分离程度,引发代理问题,将会损害债权人和中小股东的利益。同时,在高比例的股权质押下控股股东还会为了维持自身利益的最大化而去损害公司价值。因此,研究控股股东股权质押对公司价值影响的路径和程度,对于加强
学位
近年来,汽车数量增加导致的交通问题层出不穷,由此引发的自动驾驶研究已被国内外众多企业提上日程。随着深度学习的发展,一般简易交通场景下的目标检测精度已可达驾驶标准,但面对复杂场景下的目标检测,道路中存在遮挡目标和小目标检测,通过传统算法无法获取更高精度的检测。因此,本文采用了深度学习为基础的目标检测技术,分析自动驾驶复杂场景下目标检测的重难点,进而研究适用于复杂场景下的目标检测算法。具体的研究工作如
学位
行人重识别技术被广泛用于智能安防以及搜寻走失儿童等社会安全问题。有监督行人重识别和无监督行人重识别作为行人重识别的两个方向。在实际应用中,有监督行人重识别虽然取得了很好的结果,但是需要耗费大量的成本去标注数据。因此当行人在不同域的场景出现时,基于无监督学习的行人重识别应用更加广泛。与有监督方法相比,无监督行人重识别通过使用带标签的源域数据和不带标签的目标域数据进行训练,且这两个数据集通常采集的图像
学位