基于强化学习的数据驱动最优镇定控制及仿真

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:huangwily
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用Q-学习算法,针对模型未知只有数据可用的非线性被控对象,解决最优镇定控制问题。由于状态空间和控制空间的连续性,Q-学习只能以近似的方式实现。因此,文中提出的近似Q-学习算法只能获得一个次优控制器。尽管求得的控制器只是次优,但是仿真研究表明,对于强非线性被控对象,相比线性二次型调节器和深度确定性梯度下降方法,文中方法的闭环吸引域更宽广,实际指标函数也更小。
其他文献
在运输一线实施党支部建设“三年基础工程”,这既是新形势下加强铁路基层党组织建设、创新基层党组织工作方法的迫切需要,也是落实全面从严治党要求,增强党支部凝聚力、创造力和
由于不同作物或同一作物的不同长势,对电磁波中可见光和近红外波段的光谱反射率是不同的,它们之间存在着一定的相关关系,因此我们可以应用红外遥感技术进行作物产量的估测。
在国家自然科学基金项目(No.61672265,61532018,61751212,61725202)的资助下,中国学者在视觉跟踪领域取得重要进展。最近,国际视觉跟踪竞赛VisualObjectTrackingChallenge201
本文介绍了PtSi肖特基势垒IRCCD的工作原理,评述了国外硅化物肖特基势垒红外焦平面列阵的发展,重点阐述了已制成的64×64、128×128元PtSi肖特基势垒IR-ITCCD焦平面
从制冷量、制冷温度、能量指标、寿命、重量、机器的复杂程度、振动情况、维修操作是否方便、长期运行能否安全可靠、初投资及可否一机多用等方面评价制冷机。从而选择出适于
着重介绍了3个炼油厂5套催化裂化装置的红外热象检测的结果,通过对这些结果的分析对比,诊断出各催化两器装置内衬里的状况、故障部位及故障的程度,从而为维修决策提供参考依
近年来,近红外的应用技术在国内外得到迅速发展,适合生产和试验需要的新产品也不断问世。本文介绍我所近期研制出的一种适用于化工、农药、医药、食品等行业生产过程控制用的
本文讨论了HQC—2型红外器件测试台高输入阻抗、超低噪声交流阻抗变换器的设计技术和电磁屏蔽技术。
<正> 一氧化碳是无色、有毒气体,密度1.2502mg/cm~3,沸点-192℃,凝固点-205℃,常压下不溶于水。由于它是很好的还原剂,所以在化学制备和还原金属方面有独特的用途。CO气体只