基于异步优势执行器评价器学习的自适应PID控制设计

来源 :信息与控制 | 被引量 : 0次 | 上传用户:shizm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对已有自适应PID控制器收敛速度慢和计算效率低的不足,基于异步优势行动者评论家(Asynchronous Advantage Actor-Critic,A3C)算法设计了一种新的自适应PID控制器.该控制器利用A3C结构的多线程异步学习特性,并行训练多个行动者评论家(Actor-Critic,AC)结构的智能体,每个智能体采用多层前馈神经网络逼近策略函数和值函数实现在连续动作空间中搜索最优的参数整定策略,以达到最佳的控制效果.算法在提高计算效率的同时降低了学习样本的相关性.在仿真实验中通过与已有的多种自适应PID控制器性能的对比分析说明,该方法具有收敛速度快、自适应能力强的特点.
其他文献
问题转化型方法和算法适应型方法是多标记学习中主要的两类研究方法,其中问题转化型方法因其独立分类算法得到了广泛的关注,而已有的问题转化型方法存在或忽略标记间相关性,
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
提出一种鲁棒谱多流形聚类算法(Robust Spectral Multi-Manifold Clustering,简称RSMMC).现实生活中许多数据都是带有噪声的,先前许多聚类算法在直接处理带噪声的数据,聚类效
基于分解的多目标进化算法(MOEA/D)在求解多目标优化问题时,有着较强的搜索能力、高效的适应度评价、良好的收敛性等优点.然而,在更新子问题时,新解在固定邻域内替换所有较差
天水市秦州区位于甘肃省东南部,是典型的雨养旱作农业区,年平均降雨量520mm左右,无霜期170d左右,我区降雨特点是多集中在7~9月份,3~6月份降雨偏少,春旱、伏旱严重,在玉米生产
研究同时存在双通道数据包丢失和时变时延的Delta算子网络控制系统(NCSs)故障检测问题.假定数据包丢失发生在控制器到执行器、传感器至控制器的数据传输过程中,并且利用两个
云南省保山市隆阳区地处云南西部,属低热河谷,多山丘陵地带,海拔640~3 100m,2009年以来,每年夏季干旱已成常态化,夏季降雨量不足100mm,对甘蔗生长极为不利,为解决隆阳区旱地
针对基于概率假设密度(probability hypothesis density,PHD)的非线性机动多目标跟踪精度低、滤波发散、目标数目估计不准确等问题,提出一种基于交互式多模型的稀疏高斯厄米
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥