基于平均奖励的强化学习算法在离散时间系统最优控制中的应用研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:fsswyjz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着控制理论的日益完善,社会生产对于系统的性能以及控制成本提出了更高的要求,最优控制问题受到了越来越广泛的关注。传统的最优控制方法只能处理形式较为特殊的系统,当系统具有一般形式时,该类方法难以求解。强化学习是一种无模型的寻优方法,适用于求解一般系统的最优控制问题。本文在马尔可夫决策过程框架下研究基于强化学习的离散时间系统最优控制问题及其应用。每一章的主要内容如下:第一、二章总结和分析了强化学习与最优控制领域的研究现状,并介绍了本文所涉及的一些预备知识。第三章研究了状态空间不可数的马尔可夫决策过程。首先,本文定义了状态空间不可数的马尔可夫决策过程。其次,分别在期望累计奖励标准和平均奖励标准下,给出并证明了各自的最优性方程,其结构在不可数和可数状态空间下具有一致性。最后,在期望累计奖励标准下,若最优策略为确定性策略,则其具有保护性,故可以通过最优动作状态值函数寻找最优策略。第四章在第三章的基础上,针对一类含有状态噪声且系统更新时间间隔随迭代次数变化的随机离散时间系统,本文在马尔可夫决策过程框架下提出了基于强化学习算法的系统最优控制方法。首先,基于系统方程构造了状态空间不可数的马尔可夫决策过程,将最优控制问题转化为马氏框架下寻找最优策略问题。其次,利用平均奖励标准及其最优性方程,证明了原问题中的最优策略等价于平均奖励标准下的bias-optimal策略,并在此基础上设计平均奖励算法。最后,通过一个数值算例验证了算法的有效性。第五章利用平均奖励学习算法解决了一类离散时间多智能体系统的最优控制问题。本文给定控制器结构,分别设计基于平均奖励的同策略以及异策略强化学习算法,使系统以最快速度实现一致。通过数值仿真分别得到系统最优通信拓扑以及控制器参数。第六章总结了本文的工作,并对未来的研究进行展望。
其他文献
本文主要研究有限维半单拟三角Hopf代数上的广义Frobenius-Schur指标,我们定义了有限维半单拟三角Hopf代数上的一类广义Frobenius-Schur指标,并通过研究这类指标的某些算术条件及性质来间接获取相关拟三角Hopf代数的结构信息.本文主要分为以下四个部分:首先给出有限维半单拟三角Hopf代数上的广义Frobenius-Schur指标初始定义并根据定义计算了 4阶以下循环群代数
加权异构信息网络(Weighted Heterogeneous Information Networks,WHIN)是图模型的扩展,具有异构性、语义丰富性和关联性,有更好的语义表达能力,被越来越多地用做数据表示模型。大数据时代下,相似性查询处理技术得到广泛应用,是目前数据管理技术的研究重点之一。图编辑距离(Graph Edit Distance,GED)最常用于度量图模型的相似度。然而,GED仅能
人脸识别技术是近几十年来飞速发展的领域,得到了广泛的关注。随着深度学习的不断发展,对人脸识别的研究取得了许多突破性的进展。基于深度学习的识别算法甚至超过了人类肉眼的水平,然而这些研究大多是在正面人脸或者近似正面人脸的前提下,因此这些研究都存在着一定的局限性。本文为了解决多姿态人脸识别,从生成正面人脸的角度出发,深入研究了现有基于生成对抗网络的偏转人脸转正算法,并在此基础上提出了两种人脸转正方法。本
隐喻作为一种修辞手法,最早出现在语言学研究范畴。近年来,被设计师逐步引入人机界面设计领域。界面隐喻作为一种设计手法能够以用户经验背景为基础提供相关启示,辅助用户完成界面认知行为。目前,对数字图形界面隐喻性的研究仍停在初步视觉、美学设计研究阶段,视觉作为用户界面信息认知主要通道,国内外学术界对于其认知机理解码也处于起始,并未形成规范性、统一性的界面设计指导。本文将数字图形界面的隐喻性作为研究对象,综
图像增强是现今图像处理领域的一个研究热点,主要任务是将各种影响人们观感的图像进行处理,使其能够恢复图像原有的信息,提高图像质量。其中视频监控作为日常生活中最为常见的应用,由于会受到恶劣环境、电磁干扰等各种不良因素的影响,导致监控视频出现不清晰,多噪声,低分辨的问题。低质量的监控图像将影响监控效率,因此对监控图像进行增强变得尤为重要。本文基于生成对抗网络,将图像降噪和图像超分辨两种任务相结合,在已有
背景:目前,我国前列腺癌(PCa)患者确诊时往往已发展为中晚期,常伴有盆腔淋巴结转移、精囊腺侵犯、膀胱或直肠侵犯等。因此,PCa的早期诊断仍是临床上有待克服的难题。传统影像学检查如B超、CT、MRI等,在PCa诊断中发挥了重要作用,但敏感性和特异性不高,常常出现漏诊甚至误诊的情况。近年的研究发现,68Ga-PSMA PET/CT因具有优异的诊断效能,在PCa的早期诊断中发挥重要作用。mpMRI因结
随着深度学习在静态图像识别领域的广泛发展和应用,深度学习在视频领域的研究逐渐成为计算机视觉的重要研究方向。其中智能监控作为视频识别的主要应用场景也成为了热门研究课题。视频监控场景的行为识别任务由于画面视野较大,视频内容较长且画面中可能出现多个目标发生行为,不仅需要识别行为的类别,还需要检测行为发生的空间位置和时间位置。本文针对ActEV测评中的实际监控视频场景,提出由目标识别、多目标跟踪、行为识别
《活着》是余华在20世纪90年代的代表作之一。小说以通俗的语言展现了人类对于苦难、对于活着的体验和认识的共性,易引发读者思考与共鸣。《活着》已被译介至英、法、德、意、日、韩等多个国家和地区。2003年,美国学者白睿文所译的《活着》英译本To Live出版,引起英语国家读者的强烈反响。目前,已有许多学者从目的论、关联理论、翻译伦理等多个角度,对To Live的翻译策略、文化负载词等方面进行了深入的研
近年来,非合作博弈论中的一些有效技术被广泛应用于解决移动传感器网络的设计、资源配置、智能电网中的能源管理及能源交易等问题。分布式纳什均衡搜索问题作为非合作博弈的一个重要研究问题受到各领域研究学者的广泛关注。现有的大多数关于分布式纳什均衡搜索问题的研究是在博弈中参与者的通信拓扑是(强)连通的基础上进行的,而在实际通信环境中,潜在的随机链路故障或通信链路攻击可能会破坏通信网络的连通性,导致博弈中参与者
研究目的TBC1D3癌基因最初是在人前列腺癌细胞中发现的,该基因在多种肿瘤包括前列腺癌、乳腺癌、膀胱癌、胰腺癌和骨髓增生异常综合征等组织中均高表达,高表达的TBC1D3能使小鼠NIH 3T3成纤维细胞恶性转化为肿瘤细胞,把恶性转化细胞注入裸鼠体内,可导致肿瘤形成,但其机制尚不十分清楚,特别是TBC1D3对乳腺癌细胞的增殖和化疗敏感性的影响及其机制还有待阐明。我们前期的转录组高通量测序结果提示,癌基