基于零和博弈的多智能体网络鲁棒包容控制

来源 :控制与决策 | 被引量 : 0次 | 上传用户:wuwuwujduuez
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对受扰非线性多智能体网络,研究分布式鲁棒包容控制方法.采用微分博弈理论将有界L2增益包容控制问题描述成多玩家零和博弈问题.对于每个跟随者,当至少有一个领航者与其存在有向路径通信时,基于局部邻居信息定义每个跟随者的性能指标,从而得出包容误差L2有界且零和博弈解存在的结论.在系统动态完全未知的情况下,采用积分强化学习算法和执行-评价-干扰网络,在线得到近似最优策略.仿真结果表明了所提出方案的有效性和正确性.
其他文献
针对模型未知的一类离散时间多智能体系统,本文提出了一种Q-learning方法实现多智能体系统的一致性控制.该方法不依赖于系统模型,能够利用系统数据迭代求解出可使给定目标函数最小的控制律,使所有智能体的状态实现一致.通过各个智能体所产生的系统数据,采用策略迭代的方法实时更新求解得到多智能体系统的控制律,并对所提Q-learning方法进行了收敛性和稳定性分析.最后,论文给出了计算机仿真验证了所提方法的有效性.
为表征煤系沉积岩的孔隙结构与分形特征,选取中侏罗统页岩、泥岩和砂岩3种典型沉积岩进行了X射线衍射(XRD)分析、核磁共振(NMR)实验,运用分形理论讨论了NMR分形维数与矿物组成、物性参数之间的相互关系。结果表明:①基于弛豫时间截止值T2C,可将页岩、泥岩NMR分形维数划分为吸附孔隙分形维数DA(T2≤3 ms)和渗流孔隙分形维数DS(T2>3 ms)。②储层物性方面,NMR分形维数Df与孔隙率、渗透率、储层质量指数呈良好的线性负相关关系,说明NMR分形维数能够作为衡量岩石物性的重要指标。③矿物成分
车辆协同感知定位是车辆定位的热点技术.针对车载自组织网络,本文在GPS卫星导航和车辆自身航位推算(DR)的基础上,利用车辆之间的到达时间(TOA)观测和车辆到车辆(V2V)的实时通信来设计一种分布式协同定位方法.针对协同定位中TOA测量函数的非线性和辅助车辆真实位置未知的问题,提出了一种基于改进无迹卡尔曼滤波(UKF)的协同定位算法.相对于传统的UKF协同定位使用GPS观测值作为辅助车辆位置,本文
针对一类具有执行器、传感器故障的多伺服电机控制系统,设计了相应的多伺服电机智能化协调容错轨迹跟踪控制系统.首先,提出了一种新结构的分布式中间估计器,修改了其设计结构,提高了估计方案的可行性.其次,通过在线强化学习估计策略,可以显著提高估计性能,其核心是自适应切换机制与源故障模式定位功能块的集成,并根据估计值设计了协调容错轨迹跟踪控制器.同时,设计了可视化人机交互操作界面,可将伺服电机的实时位置、速度、相应的位置、速度估计值及控制性能等信息反馈至监控中心.操作人员可随时调节伺服输入,完成任务调整,可有效提升
针对水面无人艇的路径规划,首先用仿生学算法对环境障碍物做开运算,提出改进的蚁群算法搜索可行路径得到航路点序列,优化合并没有障碍物的相邻航路点并顺序连接,得到可行且无碰撞风险的全局路径;其次,使用Dubins曲线算法对连接点进行平滑处理,分析其几何特性并找出其不足之处;最后,引入贝塞尔三阶曲线理论对于已经优化过的折线段进行平滑处理,使其在满足最小旋转半径的同时,也满足USV动力学特性,最终得到一条优化可行的路径.仿真结果证明本算法设计的光滑路径在计算复杂度、路径优化等方面都有了较大的提高.
本文研究一类具有未知常参数的二阶非线性多智能体系统的有限时间自适应分布式优化.首先,通过给定各个智能体的二次目标函数,并结合多智能体系统达到一致性的条件,构造含有惩罚因子的惩罚函数,提出加速智能体状态收敛至目标函数最优解的控制策略.其次,在给定惩罚因子下,基于幂积分方法和有限时间稳定理论,设计有限时间分布式自适应控制协议,使得惩罚函数的梯度在有限时间内收敛到零的邻域内.再次,通过增大惩罚因子,保证多智能体系统的状态最终达到一致,并收敛到总体目标函数的最优解.最后,仿真算例验证了结果的可行性和有效性.
针对含有模型不确定性和未知外部扰动的车式移动机器人集群,本文设计了一种分布式协同编队控制器,通过单条参数化路径导引,实现了车式移动机器人协同编队运动.本文首先在运动
本文研究通信范围有限的智能体群组编队问题,探索网络攻击下多智能体系统弹性均值趋同控制策略.现有的工作表明,多智能体系统可通过维持一个所谓r–鲁棒的通信网络,实现分布式弹性趋同控制器的设计.然而,传统的方法中只有当单个智能体的通信范围足够大时,才能使网络满足r–鲁棒这一特定条件.本文利用智能体可移动的特性放宽了对通信范围的要求,通过小组化和模块化的设计思想以及相应的编队策略,让智能体沿预设轨道做周期性运动,从而达成具有r–鲁棒的通信网络,并基于该通信网络提出了一种分布式弹性均值趋同控制方法.此外,分析给出了
近年来随着深度学习尤其是深度强化学习模型的不断增大,其训练成本即超参数的搜索空间也在不断变大,然而传统超参数搜索算法大部分是基于顺序执行训练,往往需要等待数周甚至
针对固定节点数的渐近最优快速扩展随机数算法(RRT*FN)精度低、收敛到最优值速度慢等问题,提出一种改进的RRT*FN路径规划算法,并用于解决二维静态环境下的移动机器人全局路径规划问题.首先,改进算法使用与RRT*FN算法相同的均匀采样方法进行路径搜索,当搜索到一条初始路径时,在之后的路径规划中使用启发式采样方法.在之后的每次迭代中,改进算法在椭圆子集采样方法与路径点邻近区域采样方法中随机选择一种