论文部分内容阅读
非线性系统的最优控制问题近些年来一直是控制领域的一个研究热点.然而,非线性系统的复杂性导致已有的最优控制方法在应用时存在各自局限性,解析解很难被获得.因此,作为一种近似求解最优控制问题的新算法,近似动态规划方法自其诞生之日就成为了解决非线性系统最优控制问题的有效方法之一.此外,近似动态规划方法获得广泛关注的另外一个重要原因在于其不仅能够成功地避免“维数灾”问题,而且可以进一步获得近似最优的闭环反馈控制律.本文采用近似动态规划理论与算法对非仿射非线性系统进行了深入的分析和设计.其中主要讨论了以下几个问题:未知离散非仿射非线性系统的最优控制问题和最优跟踪问题,执行器带有非对称死区的离散非仿射非线性系统及未知连续非仿射非线性系统的最优跟踪控制问题,连续非仿射非线性二人零和微分对策问题.针对以上几个问题,我们不仅提出了相应的收敛性判据,而且提供了一些新的设计思路和有效的设计效果.总的概括起来,本文主要工作如下:1.针对未知离散非仿射非线性系统的最优控制问题,提出了一种新型的基于近似动态规划的最优控制方案.采用递归神经网络作为神经网络辨识器重构未知系统动态.根据Lyapunov理论,证明了该神经网络辨识器具有良好的辨识效果.在建立的神经网络辨识器基础上,采用近似动态规划的方法设计最优控制器.引入了评价网和控制网这两个神经网络来执行迭代启发式动态规划算法.在考虑了神经网络近似误差的基础上,严格证明了控制网估计误差及其权值的一致最终有界性.2.针对一类未知离散非仿射非线性系统的最优跟踪控制问题,提出了在线的近似最优跟踪控制策略.设计了一个在线神经辨识器,用来构建未知系统模型.然后利用近似动态规划方法设计最优跟踪控制器.该控制器由一个稳态控制项和一个最优反馈项组成.稳态控制项保证系统在稳态阶段具有良好的跟踪性能,最优反馈控制项保证在暂态阶段镇定状态跟踪误差且最小化系统性能指标函数.根据Lyapunov理论,证明了所提出的控制策略能够保证跟踪误差及神经网络的权值是一致最终有界的.3.针对一类执行器带有非对称死区的非线性系统,提出一种基于神经网络的增强学习方法设计最优跟踪控制器.首先定义一个滤波跟踪误差,设计出控制器的基本形式,并证明了采用此控制器的闭环控制系统是稳定的.在此基础上,提出了基于增强学习的自适应控制方案.此方案设计了两个神经网络:评价网和控制网.评价网用来近似系统的性能指标,控制网不仅用来近似未知的非线性系统动态,并且实现最小化系统性能指标函数的目的.这两个神经网络的训练都是在线训练,不需要离线进行.根据Lyapunov理论,证明了闭环跟踪误差以及神经网络权值的一致最终有界性.4.针对一类未知连续非仿射非线性系统的最优跟踪控制问题,提出了一种鲁棒近似最优跟踪控制方案.该控制方案不需要与系统相关的动态信息已知,而是通过建立递归神经网络模型来重构未知系统动态.通过在模型中加入一个与建模误差相关的可调项,使得建模误差渐近收敛到零.然后基于所获得的递归神经网络模型,利用近似动态规划方法设计鲁棒近似最优跟踪控制器.该控制器由一个稳态控制项、一个最优反馈项和一个鲁棒项组成.根据Lyapunov理论证明了所提出的控制策略能够保证跟踪误差渐近收敛到零,并保证了所获得控制输入在最优控制输入的一个小的邻域内.5.针对一类非仿射非线性零和微分对策问题,提出了一种新的迭代方法用于求解最优控制策略.该迭代方法首先将非线性零和问题分解成一系列的线性零和问题,相应的Hamilton-Jacobi-Issue方程分解成一系列Riccati方程.然后在得到的线性零和微分对策的状态序列及其相应的Riccati微分方程序列之间进行迭代.在局部Lipschitz条件下,证明了迭代序列的收敛性,控制序列收敛于非线性零和微分对策问题的最优控制对.进而给出了求解非仿射非线性零和微分对策问题的最优控制策略的必要条件.6.针对一类未知非线性系统的二人零和微分对策问题,提出了一种基于神经辨识器的采用近似动态规划算法的控制方案.该方案首先通过设计一个基于递归神经网络的辨识器来近似未知非线性系统动态,并在模型中增加了一个新型的调整项.根据Lyapunov理论,证明了该递归神经网络模型的动态与原未知系统动态的误差为零.基于此模型并应用近似动态规划的方法,给出了在零和微分对策问题鞍点存在或者不存在的情况下最优性能指标和最优控制对的求解方法.最后,指出了目前近似动态规划理论研究中存在的一些问题和进一步的发展方向,并对未来的研究工作进行了展望.