基于强化学习的前馈控制器

来源 :华北电力大学(北京) | 被引量 : 0次 | 上传用户:ptf_phoenix
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前的工业过程控制系统中,线性控制器仍占绝大部分。然而真实的工业系统都是非线性的,工况切换,设备老化等等实际工业问题都对传统控制器带来挑战。研究更加智能的,具有自学习能力的控制算法具有重要意义。随着机器学习算法的不断发展,以深度学习、机器学习为基础的强化学习算法使得非线性系统自适应控制出现了新的研究方向。强化学习是具有自我决策能力的控制算法,通过探索与试错拥有类似人类的学习能力,通过学习不断改善自身策略,具有优秀的环境自适应能力。好比工厂培训新工人一样,强化学习算法在具有优秀控制能力之前,需要一个长时间的复杂的训练过程,虽然拥有自适应的能力,但学习过渡的过程中存在为控制系统带来负面影响的可能。同时,当被控对象具有时变特性的时候,纯强化学习算法的学习过渡过程会为算法带来鲁棒性问题。针对强化学习用于过程控制时的训练时间较长,过渡性较差问题,本文提出了基于强化学习的自适应补偿控制算法,讨论了其在非线性系统过程控制中的应用问题。本文的主要工作如下:首先,针对典型非线性系统,设计强化学习算法控制方案,研究不同深度强化学习算法在非线性系统优化控制中的表现,证明强化学习算法的有效性,同时引出其存在的问题。再次,研究利用前馈结构降低强化学习训练难度。通过前馈反馈结构,将强化学习作为外挂优化器,保留原过程控制系统的反馈回路。从而将控制问题简化为优化问题,加快强化学习收敛速度,通过与传统的强化学习方法对比,设计仿真实验证明该方法的优越性。同时,考虑过程控制中存在的时变特性问题,传统的强化学习算法会存在适应新对象的过渡问题。针对这一问题,本文所述方法中反馈回路的存在会提高控制系统的鲁棒性,同样设计仿真实验验证时变对象本方法的有效性。接着,考虑复杂的过程控制系统大多很难建立精确的仿真模型用于强化学习算法的训练,提出了一种基于网络监督控制的强化学习算法。利用网络监督控制方法,根据过程运行历史数据来求解基础的策略网络,结合强化学习方法对策略网络进行后续的优化,并通过仿真实验验证了该方法的有效性。最后,对全文内容进行总结并提出了本文所述方法仍存在的问题及未来研究的前景。
其他文献
无线传感器网络(Wireless Sensor Networks,WSNs)是一种分布式传感器网络,是物联网的很重要组成元素之一。主要通过感知周围信息,以逐跳的方式将获得的信息传送到基站(Base Station,BS)。目前大多数WSNs中传感器节点由电池提供能量,对其网络寿命限制极大,导致其推广和应用受到了严重的影响。因此,延长网络寿命一直都是WSNs中重要研究方向。针对这一问题,目前主要采用
共享单车在2016年出现后,在很短时间内实现了大规模的投放和使用。同时共享单车具有优秀的低碳减排属性,缓解了大城市的拥堵现象,提高了出行效率,拥堵时间明显缩短。与此同时,共享单车更能和地铁等公共交通工具配合使用,满足市民公交通勤全流程的衔接,给人们提供了绿色安全便捷出行的新选择。但共享单车的快速增长也带来了负面影响,车辆投放总量严重过剩,同时存在企业现场运维薄弱等问题,各大城市逐步开始共享单车总量
车辆雾计算(Vehicular Fog Computing,VFC)的快速发展为车辆带来了诸多益处,如对计算资源的低时延访问。然而,安全与隐私威胁、信息不完全及用户车辆任务数据排队时延和切换成本的长期约束等限制了其发展。本文基于区块链和智能合约提出了一个保护用户隐私、确保安全性和公平性的任务卸载方案。具体来说,用哈希树和智能合约实现“计算量证明”,进而减少“双重索偿”攻击、“搭便车”攻击和赖账攻击
随着无线技术的广泛应用,毫米波通信成为近年来研究的热点,信道测试、建模与仿真技术在毫米波通信系统设计中起到重要作用。与此同时,遗传算法(Genetic Algorithm,GA)与机器学习中支持向量机(Support Vector Machine,SVM)算法的结合能够克服高维数据处理复杂度高、冗余数据处理对算力要求高等传统信道研究难题。而灰色理论的引入可以使模型面向小样本数据,增加模型的预测精度
深度学习方法以其特征提取和非线性数据建模的优势,受到越来越多研究者的关注。卷积神经网络作为深度学习中一种典型的结构,被广泛应用于化工、生物和语音识别等领域。卷积神经网络局部连接、权重共享等特点,使其可以有效地降低网络的复杂度,减少训练参数的数量,增强模型的容错能力。近年来中国电力工业中新能源占比越来越高,正在逐步构建高比例新能源电力系统,因此风速的精准预测对风电并网下提高电力系统的稳定性有重要意义
近年来,经济持续快速发展,人民生活质量得到显著提升,消费需求也在持续扩大。乘用汽车作为人民出行重要的交通工具,市场需求量也在不断增长。乘用汽车消费需求的不断扩大驱动了汽车物流行业的进步。铁路运输作为汽车物流的运输方式之一也实现了快速发展。在发展的过程中,铁路运输的固有属性使其具备了长距离、大批量、可靠性强等优势。基于铁路的优势特征以及汽车物流的特殊性,铁路运输逐渐发展成为了乘用汽车物流的主要运输方
多机器人编队问题是多智能体协作研究的重要问题,是机器人控制的一个重要分支,也是当前研究的热点,机器人编队已经应用在军事搜索,潜艇编队,无人机编队等复杂任务中,通过多个机器人相互协作进行编队能够完成多种复杂的任务,能提高工作效率,减少能源消耗成本,提高任务完成的成功率。本文以轮式移动机器人为研究对象,采用领导者-跟随者编队的编队模式,通过用滑模变结构控制来对该非线性系统进行控制,对多机器人编队控制进
随着日常生活和生产过程中智能平台的广泛应用,越来越多的智能平台搭载云台相机作为其获取有效视觉信息的重要手段。为了充分发挥云台相机的优良特性,研究云台相机的位姿控制策略具有重要意义。本文针对云台相机位姿控制,研究基于传统PID方法结合群智能算法以及深度强化学习的相机位姿控制算法。论文的主要工作如下:首先,简介强化学习和深度强化学习的基本概念,对比分析了基于值函数、基于策略梯度和演员-评论家三种强化学
随着互联网技术的发展,互联网上的信息量每天都在爆发性的增长。如今云计算凭借其高可靠性、高可扩展性以及计费灵活等特点,在高效处理海量信息方面越来越受到人们的关注。云计算本质上是一种分布式计算,用户可以根据自已情况,随时随地按需获得服务。随着用户规模的不断扩大,云平台需要处理的任务也逐渐增多,因此当前研究的重点在于任务调度算法的设计和改进。蚁群算法(Ant Colony Optimization,AC
卷积神经网络在大量的传统机器学习任务上的表现超越传统方法,在实际生产生活中正得到广泛的运用,例如:图像分类、目标识别和生成模型等。然而,当前的先进网络往往具有较大的计算量,这限制了其在大量低成本、低功耗的边缘场景中的使用。同时,将面向复杂数据的模型直接应用到较小的数据集上,会不同程度地增加网络模型的冗余,甚至会因过拟合影响模型的泛化性能。网络压缩领域中的网络剪枝方法能以结构化的方式移除模型中的冗余