基于强化学习算法的多人博弈和自适应优化

来源 :安徽大学 | 被引量 : 0次 | 上传用户:seelo1332
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文重点针对一种基于强化学习的线性多人博弈的自适应优化控制问题,展开了研究。同时考虑到跳变系统的内部耦合关系,本文重点介绍了子系统转换技术,将跳变系统内部的耦合关系加以解耦。文章中提出了一种新型的强化学习的方法,通过在线策略迭代的方法来求解多人博弈的控制问题。以往都是用离线的迭代方法来实现的,有很大的局限性,而本文提出的在线策略迭代是完全不需要系统内部矩阵的相关信息,且具有更高效,更快速的优点。最后通过数值仿真计算来证明提出的方法的合理性、实用性。下面介绍本文的具体贡献和研究内容:首先,深入研究了基于在线强化学习的连续时间线性系统中的多人非零和博弈的控制问题。在本文中首次给出了一个并行求解线性系统中的多人非零和博弈的离线算法。这种离线计算是为了直接求解Riccati方程组,但具有较大的局限性。根据此问题提出了一个新型的在线策略迭代算法,该算法在求解的过程中是不需要系统的内部矩阵的,最后通过数值仿真计算来证明提出的方法的合理性、实用性。然后,研究了基于在线强化学习的连续时间Markov跳变线性系统的多人非零和博弈。在前面研究的问题中加入了Markov跳变的问题,因为跳变系统属于复杂系统所以一般的方法不能直接应用,需要加入子系统转换技术。而且多人非零和博弈系统中每个玩家会出现耦合,给我们的求解公式带来了一定难度。所以在此研究中我们首先收集系统状态和输入的子系统信息,然后我们使用在线学习来计算相应的N个耦合代数Riccati方程,最后提出策略迭代的算法来求解这个方程。最后通过数值仿真计算来证明提出的方法的合理性、实用性。接着,研究了基于在线强化学习的跳变线性系统的多人零和博弈的控制问题。首先,我们考虑了这个问题作为求解相应的耦合代数Riccati方程的一个等价问题。然后,针对Markov跳变系统的复杂性引入了一种新的子系统转换技术来解决其中的耦合关系。并设计了一种在线策略算法同时添加探测噪声来激励系统。最后通过数值仿真计算来证明提出的方法的合理性、实用性。最后,给出了概括总结和前景展望,并指出了相关课题今后可以研究的方向。
其他文献
随着生命科学技术的快速发展,在生物工程、细胞工程和基因工程的研究中涉及繁杂的样本液体处理,手动完成液体的分配与转移已无法适应现代实验室中对高通量、高精度的样本液体处理要求,全自动移液工作站不仅能够减轻人工繁重的移液操作,而且能够避免人为因素对实验结果的影响。国内在全自动移液工作站的研究起步较晚关键技术相对落后,因此,存在定位精度低、移液量不精确、可靠性较差等问题。本文采用模块化设计理念,对全自动移
学位
规划在中国特色社会主义事业发展的历史进程中具有重要的引领作用。在国家治理中,规划制度发挥作用的途径在于通过法定的形式,将党和国家的政策上升为具有法律约束力的体现国家意志的法律制度,从而指引各项事业发展。相比较而言,人们对空间规划并没有如同发展规划一样高的关注度。然而,空间规划进入人们的视野和学术研究范畴,并不是什么特别的发明,而是基于社会关系需要法律规范调整的客观需要和当然结果。与我国空间规划的制
学位
基于宏观(力学行为特征、破坏特征、能量演化)和微观(裂纹演化)视角综述预制钻孔和高应力实时钻孔在解析钻孔卸压防治岩爆灾害机理方面的试验研究进展,阐述钻孔卸压防治岩爆灾害的合理性和有效性。理论研究、试验分析证实钻孔卸压是解除深部围岩高应力、高能量的关键技术,为应用钻孔卸压防治岩爆方案制定优化提供参考。高应力实时钻孔试验方法是一种更为科学的揭示钻孔卸压防治岩爆内在机理的新研究方法。根据岩爆诱发机理和当
期刊
学生作业负担过重是我国中小学长期存在的教育问题,主要有作业数量过多、作业效果较差、作业功能异化、忽视学生学习心理等问题.2021年7月,中共中央办公厅、国务院办公厅印发了《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》(以下简称“双减”政策),对学生作业负担方面提出“全面压减作业总量和时长,提高作业设计质量,将作业设计纳入教研体系”等具体要求.因此,数学作业设计的优化是落实“双减”政
学位
棉花是一种重要的经济作物,棉花产业链的价值巨大,涉及到国计民生的众多行业。然而,棉花黄萎病主要危害棉花生产,造成棉花产量和纤维品质的损失,田间管理和化学农药等方法不仅防治效果有限,而且会造成环境污染等问题。因此探索环境友好型的生物工程技术改良棉花的抗病品种,可能是当前解决棉花黄萎病的有效途径。木质素是植物细胞壁的重要组成部分,在水、矿物质和营养物质运输以及植物抵御生物胁迫方面起着关键作用。因此,鉴
学位
栖息地选择以多种表现形式存在于迁徙水鸟的整个生活史阶段,直接或间接影响鸟类的繁殖成功率、空间分布格局和食物资源可获得性,进而导致栖息地偏好和觅食策略的改变。由于繁殖地、迁徙停歇地和越冬地栖息地适合性状况的差异,水鸟在栖息地利用模式、分布格局以及行为反应方面往往表现适应性调整。适宜的营巢栖息地包括适宜的巢址和巢支撑物,二者共用决定水鸟的繁殖成效;栖息地质量影响越冬水鸟的越冬策略,对栖息地条件变化的快
学位
淹没区植被变化是区域生态系统对洪涝灾害响应的综合体现,获取准确的洪涝淹没边界是研究淹没区植被变化的基础与前提。目前传统淹没区边界提取方法存在着道路及山体阴影误提、植被-水体混合体漏提和效率低等问题。同时,植被变化研究主要关注多年度长时序恢复情况,涉及洪涝发生后短时期年内变化研究较少。因此,如何准确获取洪涝淹没边界和洪涝淹没后植被年内如何变化是遥感监测和生态环境领域的热点问题。本研究以巢湖周边20k
学位
21世纪进入第三个十年,我国知识产权刑法保护事业正面临来自数字技术、人工智能、民事法典以及发达国家的四重挑战。四者分别表现为:建立在物理社会之上的知识产权刑法规范及其构成要件,难以涵盖数字时代知识产权犯罪新样态;人工智能及其创作物所引发的针对知识产权侵权主体、被害主体、保护客体地位的诘问;正在实施的《民法典》、新近陆续大修的各知识产权部门法以及正在讨论制定的《知识产权法典》所呈现出的知识产权民事扩
学位
抗生素的过度使用或滥用,使其成为一种危害环境的新型污染物。环境中抗生素即使在较低浓度下仍会对细菌构成持续的选择压力,诱导细菌产生抗生素抗性基因(antibiotic resistance genes,ARGs),而ARGs在不同细菌间传播是潜在的生态风险。厌氧处理具有应用范围广、能耗低、产生清洁能源等优点而应用于含抗生素废水的处理并控制ARGs的传播。为系统揭示厌氧处理系统中ARGs的产生、传播与
学位
随着企业商业贷款不良率不断地上升,银行利用人工调查企业的年度报表,对其产量进行评估的手段不仅效率低、成本高。而且中小型企业缺乏财务人员,无法提供财务报表,银行无法准确对其进行评估。因此,银行需要一套智能监测方法来实现对贷款企业的监测来降低贷后风险。针对银行贷后风险智能监测需求,首次提出了一种基于正态分布模型剔除异常数据的工厂产量评估方法。首先,统计车间总线每天的电流和;然后,根据电流和的概率分布拟
学位