控制系统的学习和优化:马尔可夫性能势理论与方法

来源 :清华大学 | 被引量 : 4次 | 上传用户:yellowyangjie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文采用性能势理论和方法,研究了动态控制系统的学习和优化的问题。性能势理论是学习和优化领域相当重要的一套理论和方法。基于性能势这一核心概念,可以将学习和优化领域的各种研究内容和成果放到统一的框架中。进一步,还可以提出相当多的理论和算法。传统的最优控制方法,只能处理比较简单的,或者比较特殊的情况,而对于一般化的问题难以求解。将学习和优化领域的各种理论与方法应用到这些问题上,可以得到相当多的用传统方法无法得到的成果。本文首先将马尔可夫性能势理论扩展到连续的状态空间。成功的建立起动态系统和马尔可夫系统之间的联系。基于此,导出了动态控制系统的性能势表达式。在有了性能势这个核心概念以后,学习与优化领域的各种方法,如策略迭代方法、强化学习方法都可以成功的运用到动态控制系统中,以寻找最优的反馈控制策略。性能势理论和方法的优势,在于重新发掘了系统结构信息,并且很容易设计出在线学习的优化算法。本文重点考虑了在三类系统中,性能势理论和方法的应用。分别是跳变线性二次(JLQ)系统的分层控制问题,基于事件的控制问题和带有约束的最优控制问题。对每一类问题,应用马尔可夫模型建模,将原问题转化为等价马尔可夫决策过程的优化问题。应用性能势的概念,可以发现一些有用的信息。针对跳变线性二次模型的上层优化问题,我们提出了模态的性能势表达式,由此可以求解传统方法无法处理的JLQ系统的分层控制问题。采用时间集结的思路,首次给出了Lebesgue采样系统的最优控制模型,并提出解析的和基于样本路径的算法,同时可以将时间集结的想法应用于熔炉加热过程这一工程系统中。采用性能梯度方法,研究了带有约束的最优控制问题,提出了在线的学习优化算法。
其他文献
纳米材料或结构一直是国内外学者研究的重点,自从多孔氧化铝模板被发现以来,由于其本身制备简单,成本低廉,尺寸可调且周期有序等优点已被广泛应用于制备纳米材料和纳米结构,在各个领域都有极大的贡献。本文基于多孔氧化铝形成机理和结构参数影响变化,研究了多孔氧化铝模板制备及基于模板的金纳米线阵列沉积工艺,讨论了微米级长度金纳米线阵列复合结构的制备方法及性能,并设计了亚微米长度金纳米柱阵列复合结构,最终分别实现
本文分析马可夫链经验分布大偏差速率函数的相关问题,对Donsker-Varadhan速率函数的表达形式在一定条件下加以简化,以增强实用性.马氏链大偏差速率函数通常以带上(下)确界的形式出现,可参见本文定理2.1及定理2.2。由于确界范围往往比较复杂,造成实际计算上的困难。所以需要讨论速率函数表达的简化问题。 本文的研究对象主要为一般马氏链的序对经验分布速率函数,方法为从平稳的马氏链出发,再推广到一
场景文本识别是计算机视觉领域的热门方向,它在自动导航、图像检索、人机交互等领域有着许多应用。随着手机、相机等拍照设备的普及,人们对自然场景图像的获取越来越便捷,对图像中文本信息正确识别的需求也越来越强烈。近年来,虽然深度学习的快速发展大大推动了场景文本识别技术的发展,但对低分辨率的模糊场景文本图像的识别一直是该领域的难点和痛点。针对这一难题,本文结合图像超分辨率技术对低分辨率文本图像进行重建,在放
本文考虑正则化的总体最小二乘问题(RTLS)。针对此类问题,已有的算法包括如下几类:Sima,Van Huffel,Golub[10]基于求解二次特征值问题的RTLSQEP;Beck,Ben-Tal,Teboulle[1]基于凸优化问题的RTLSC; Renaut,Guo[9]基于分析特征值问题独立参数与总体最小二乘残量之间关系,提出了GR算法。本文证明了GR算法线性收敛,提出了一种改进的GR算法
经典Wnt信号通路是一条非常保守的信号转导途径,在许多生理过程中都发挥着重要作用,因此,对经典Wnt信号通路的充分了解认识是非常必需的。在从非洲爪蟾胚胎cDNA文库中筛选能够影响经典Wnt信号的基因时,我们发现Skip(ski interacting protein)蛋白的C端缺失型(SkipΔC)能够很好地与经典Wnt信号特异的转录激活调控因子β-catenin协作,激活Wnt信号;而过量表达的
本文对一般箭图Q = (Γ,Λ)(可以为赋值箭图)上的Y-系YQ做了研究,其中Γ为箭图的底图,Λ为箭向。S.Fomin和A.Zelevinsky对交错的Dynkin箭图的Y-系有过细致的分析[1],并在[2]中对Y-系从丛代数的角度做了推广。Y-系可以看作一些独立未知元的有理多项式,是有递推关系式Yi(t + 1)Yi(t ? 1) =∏j i(Yj + 1)?aij的解的集合{ym(j)}m,j
临床研究证明,人cTnI和cTnT对于早期诊断急性心肌梗塞、冠状动脉综合症及心脏手术的愈后评估,是一项非常重要的生化指标。cTnI、cTnT是WHO推荐的用于检测心肌损伤的特异性较高的标志物。基于此,表达出具有免疫原性的人cTnI、cTnT蛋白,为将来开发心肌损伤的快速诊断试剂盒提供低成本的抗原,这将对以后临床上能快速、简单、准确地对心脏病患者进行早期诊断,降低心肌梗塞死亡率具有重要的价值和意义。
两性二极化是一种最古老的发育程序,对物种繁殖有至关重要的作用。两性二极化凋亡是铸造两性差异的重要程序之一。性别特异性凋亡有缺陷时可能会导致人类性别错乱。因此研究两性二极化凋亡的机理和信号通路能从另一个角度了解常规凋亡,并改善人类的生殖健康。本文利用线虫HSN和CEM神经原的两性二极化凋亡作为实验模型,筛选出调控两性二极化凋亡的相关基因,并对其进行一系列遗传学、分子生物学以及功能研究。本文针对CEM
随着科学技术的发展,太赫兹技术逐渐成为了全世界的研究热门方向,各个研究机构对于太赫兹领域科技的研究正飞速发展。它在核磁共振(NMR)、可控热核聚变、安全检查和雷达探测等方面有越来越广泛的应用前景。其中,核磁共振是一项应用于生物医学探测、物理、化学、地质探查、材料科学等多个科学领域的波谱技术,能够对物质进行精准、迅速、无损的探查研究。回旋振荡管作为新型的可以用于太赫兹领域的毫米波、亚毫米波源,它的研
随着光谱成像探测技术的发展,传统工艺对伪装涂层材料的光谱及颜色的设计与调控将难以满足隐身需求。虽然计算机配色在纺织染色等行业发展多年,但由于涂料复杂的特性,针对涂料采用计算机辅助配色的研究进展缓慢。传统的计算机配色采用三刺激值仅能对可见光波段配色,而如今用于光谱成像探测的波长范围已经达到红外波段。为了应对更宽波段、更精确的探测威胁,本文对计算机辅助涂层材料光谱设计模型进行了研究,研究内容如下:(1