博弈系统动力学与学习理论研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:bbanb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能(artificial intelligence,AI)技术的快速发展,博弈论在社会智能、合作智能、机器智能、多智能体学习、AI安全和AI伦理等新兴交叉研究领域中扮演了越来越重要的角色。特别地,通过结合系统动力学和机器学习等方法,博弈论已成为复杂系统控制和AI领域中的一个热点研究方向。针对传统非合作博弈关于Nash均衡解概念的几点不足,本文主要对确定性和随机性演化博弈动力学、以及随机博弈和不完全信息博弈的学习理论进行了研究,并以此提出了一个关于复杂博弈系统研究的理论框架。具体地,其主要内容和创新点有:首先,针对多人社会困境博弈中的合作演化难题,本文基于演化博弈论框架提出了一个博弈者角色非对称的公共品博弈模型,并分析了博弈者策略在控制机制失效、施加对称控制机制和施加非对称控制机制下的确定性演化动力学。理论分析表明,当控制机制失效时,虽然合作策略能够在群体中得以维持,但其伤害了惩罚策略的演化。而当控制机制生效时,非对称控制机制是一种比对称控制机制更有利于促进合作策略演化的手段。其次,针对两人两策略博弈和多人混合决策博弈的群体决策问题,本文基于Moran过程和对比较过程分别提出了一个一般化形式的适应度函数和策略选择概率函数,并分析了这两个函数对随机演化博弈动力学结果的影响。理论结果表明,弱选择条件下的一个策略占优于另一个策略的判据不仅取决于经典的“σ-规则”,还依赖于这两个函数关于选择强度的一阶导数。其中,前者决定了该判据的参数条件,而后者决定了该判据的不等号方向。然后,针对一个变化博弈场景下的序贯决策问题,本文构建了一个网络上的多人随机博弈模型,并以actor-critic强化学习算法为基础提出了一个自适应的策略学习机制。在弱选择条件下,本文分别给出了有无学习机制作用下的一个行动占优于另一个行动的理论判据。该判据结果表明,学习机制的存在能够有效地提高博弈者在社会困境博弈环境中的适应性。最后,针对一个合作博弈者团队的不确定序贯决策问题,本文构建了一个鲁棒团队随机博弈模型,并提出了一个鲁棒团队策略迭代学习算法用于求解该博弈在鲁棒优化意义下的最优策略。理论分析表明,该算法不仅能以一个接近指数的速率收敛到鲁棒团队随机博弈的最优策略,还能借助近似计算缓解“维数灾难”问题。
其他文献
遥感技术可以大范围对震后灾区受灾场景进行观测,持续性地为震后应急响应提供数据支撑。随着遥感大数据时代的到来,震后应急工作对遥感数据的需求也正向着高准确性、精细化的方向发展。《国家地震科技发展规划(2021-2035年)》中明确了到2035年我国地震应急处置科技水平应全面进入国际先进行列的目标,发展基于空天平台的灾情动态获取技术,则是实现这一目标的重要途径之一。针对这一长远目标,本文结合近年来快速发
学位
随着低NOx燃烧技术在国内超(超)临界燃煤电厂的广泛应用,煤粉锅炉水冷壁因局部还原性气氛燃烧环境而发生恶劣的高温腐蚀问题,严重影响机组运行的安全性和可靠性。因此,针对煤粉锅炉低NOx燃烧环境,开发水冷壁管高温腐蚀防护新技术及材料对于超(超)临界机组的安全、高效和环保运行具有重大意义。本文利用高温气氛管式炉模拟了煤粉锅炉低NOx燃烧气氛下的H2S腐蚀环境,腐蚀气氛为N2-0.2vol.%H2S-0.
气候变化和人口增长导致全球淡水资源的日益短缺。随着环境问题的日益加剧,国家对于污水排放日益重视。将电厂废水处理回用是满足日益严厉的政策要求,也是企业可持续发展的必由之路。而电厂实现废水近零排放的重点是实现脱硫废水零排放。利用电容去离子技术(Capacitive Deionization,CDI)处理脱硫废水是缓解水资源紧缺的有效手段。CDI技术具有操作灵活性高(可根据水质要求灵活控制出水水质)、吸
在隧洞支护工程中,锚杆和衬砌因其支护效果好、施工方便且成本较低,在国防工程、水利工程及采矿工程中被广泛应用,被证明是经济可靠的巷道支护方式。但相比广泛的支护技术应用来说,锚杆和衬砌支护的机制研究、设计理论以及计算方法并不完善。特别是锚杆、衬砌两种支护同时存在的理论分析更是少见。通过建立合理的理论模型,对开挖隧洞工程中围岩、锚杆以及衬砌三者之间的力学传递机理进行分析是本文研究的重点。本文将在现有支护
随着燃煤电厂广泛采用湿法脱硫技术,烟气内SO2含量显著减少,但由于SO3及其它酸性物质脱出量少,且湿度增加、温度降低,烟气更易在脱硫系统及尾部装置上冷凝形成酸性液滴,造成严重的酸露点腐蚀问题。近年来随着可再生能源发电装机快速增长,燃煤电厂需要参与深度调峰,锅炉低负荷运行时脱硫系统及尾部装置内较低的烟气温度和流速进一步加剧了烟气冷凝及酸露点腐蚀。因此,开发具有优良耐酸露点腐蚀性能的新材料和表面技术对
孔隙水压力是太沙基(Terzaghi K)有效应力原理的核心组成和土力学的重要参数,能有效表征地基基础和岩土结构物的土体应力状态、失稳过程与机制。作为量测孔隙水压力的微型孔压传感器,与其它压力传感器相比,其拥有透水石和内空腔等复杂结构,并以土体颗粒间自由流体应力变化为测试对象,致使孔压传感器测试的准确性和可靠性一直是岩土工程的重要课题。然而,超重力试验虽被誉为21世纪最为前沿、最为先进的物理模拟试
当前,在实现“双碳”的目标下,我国正在加快构建安全、高效、清洁、低碳的新型能源结构。抽水蓄能是当今技术水平较为成熟的大规模储能方式之一,在新型能源结构以及电力系统的建设过程显得至关重要。作为抽水蓄能电站中的重要设备,一旦可逆式水泵水轮机的运行状态出现异常,轻则影响电网的稳定和经济效益,重则可能造成电站安全生产事故。为了提升我国抽水蓄能电站的智能化建设水平,目前迫切需要开展可逆式水泵水轮机的运行状态
目的:探究分析医护一体化专项管理模式应用于皮瓣修复慢性创面患者中的创面恢复效果及护理满意度。方法:在2020年1月到2022年1月期间本院收治的需要开展皮瓣修复的慢性创面患者合计60例纳入观察对象,通过随机数字表法将所有患者均分为两组:参考组(n=30,开展常规护理)和研究组(n=30,应用医护一体化专项管理模式)。对比两组患者的依从评分、康复效果、心理状态评分、创面相关指标、护理满意度。结果:研
核电厂建设选址已由沿海基岩场地逐渐开始向非基岩场地发展,在非基岩场地上建设核电站其基础的抗震性能是确保核电站地震安全的关键问题之一。针对非基岩场地核电站基础抗震问题,国家科技重大专项项目《多模块高温堆桩基及抗大飞机撞击分析研究》设置了“非基岩场地多模块高温堆核岛厂房桩基试验及分析”专项研究课题,本文在这一课题资助下采用大型地震模拟振动台试验设备开展了相关研究。针对核岛安全壳结构质量和刚度均较大的特