基于不确定性的贝叶斯策略重用方法

来源 :系统工程与电子技术 | 被引量 : 0次 | 上传用户:lake_zhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对多智能体对抗中因对手策略变化导致的非平稳性问题,在对手动作不可获取的限制下,提出一种基于不确定性的贝叶斯策略重用算法。离线阶段,在策略学习的同时,通过自编码器建模智能体轨迹与对手动作之间的关系表征以构建对手模型。在线阶段,依据对手模型和有限交互信息估计对手策略类型的不确定性,并基于此选择最优应对策略并重用。最后,在两种对抗场景下的实验表明所提出算法比三种先进的基线方法识别精度更高且速度更快。
其他文献
采用磁探无人机集群方式进行区域反潜封锁是一种潜在对潜作战样式。为了使区域反潜封锁效能达到最佳,从机群规划角度出发,建立了分批分段直线封锁和分批直线封锁两种模式下的无人机机群规划数学模型,探索了不同封锁方式下无人机机群的最优配置方式,并分析了不同因素对封锁效能的影响。通过研究,为磁探无人机集群区域反潜封锁提供了机群规划分析方法,也可为后续开发磁探无人机集群反潜辅助决策系统提供算法参考。
期刊
当下,美国和西方一些国家对华舆论战呈现长期态势。本文通过分析中国面临的国际舆论环境以及如何理解和认识中国媒体国际传播的核心任务,研究当前舆论战态势下中国国际传播策略如何转变、中国叙事如何优化。
期刊
针对柏拉图–伽马风险模型的尾在险价值度量的贝叶斯估计量的渐近行为进行研究有助于对风险度量进行统计推断,以便于风险投资者及时采取相应措施规避风险。首先,通过构造柏拉图–伽马模型的贝叶斯假设,给出了尾在险价值度量的贝叶斯估计量,并利用经典的大偏差和中偏差理论,以及Delta方法得到了尾在险价值度量的贝叶斯估计量的渐近行为,包括渐近正态性、大偏差原理和中偏差原理;其次,给出了尾在险价值度量的贝叶斯估计量
期刊
在传统多期分布式鲁棒投资组合选择模型中,不确定集合的估计是一个具有挑战性的难题。使用贝叶斯强化学习方法来动态更新不确定集合中的一、二阶矩等模型参数,进而研究贝叶斯强化学习框架下均值–最坏鲁棒CVaR模型的求解问题。通过结合动态规划和渐进对冲算法,设计了两层分解求解框架。下层通过求解一系列二阶锥规划来得到给定模型参数下子问题的最优策略,上层使用贝叶斯公式得到可实施的非预期投资策略。基于美国股票市场的
期刊
检验检测是国家经济建设、社会管理和公共事务的重要技术支撑,是承担检验、检测、检疫、鉴定、检查、计量、校准、教学和科研等工作的载体,是国家综合国力、科技、经济、军事能力水平的象征。本文以江西省为例,针对检验检测标准体系的现状,指出当前检验检测标准体系存在的问题,并就如何健全覆盖产业链供应链全过程的检验检测体系,完善检验检测标准体系提出相应的建设思路和对策。
期刊
针对我国建筑行业在BIM应用过程中存在的诸多问题,通过文献综述,结合相关专家意见,构建基于贝叶斯信念网络的BIM应用成功影响因素研究模型,并对各影响因素进行分析。结果表明,当具备企业各部门的密切合作、明确的战略规划、充分的BIM培训、企业BIM标准的构建、企业信息化意识与信念5个因素中的一个或多个时,BIM应用成功的概率较高。该研究结果能够有效提升BIM应用水平和质量。
期刊
目的 分析针对性心理护理在老年肱骨骨折手术患者中的应用效果。方法 将我院2020年1月至12月收治的120例老年肱骨骨折手术患者以随机数字表法分为常规组(n=60,常规围术期护理)和观察组(n=60,常规围术期护理+针对性心理护理)。比较两组的护理效果。结果 观察组的治疗总有效率显著高于常规组(P<0.05)。护理后,观察组的汉密尔顿焦虑量表(HAMA)、汉密尔顿抑郁量表(HAMD)、匹兹堡睡眠质
期刊
期刊
小肽转运载体介导的小肽的吸收在促进动物的生长发育和提高动物生产性能中发挥着重要作用。肠道作为动物营养物质消化吸收的主要部位,肠道内环境的稳态对动物机体的健康和生长发育至关重要。由于小肽转运载体参与营养物质转运及调控肠道稳态与肠道炎症,所以肽转运蛋白成为了营养学、生理学、药理学上的研究焦点。本文就小肽转运载体的结构、转运机制、功能、表达及活性调控进行了综述,特别总结了小肽转运载体1在肠道炎症与调控肠
期刊
水系锌离子电池是一种以水为电解液溶剂的储能装置,具有理论比容量高(820 m Ah g-1)、氧化还原电位合适(-0.76 V vs SHE)、成本低、安全无毒和环保等优点,相比传统的锂离子电池更适合大规模储能应用。然而,水系锌离子电池也面临着一些挑战,主要包括锌枝晶的形成、副反应的发生和能量密度的限制等。这些问题会对水系锌离子电池的循环寿命、安全性和效率产生不利影响。为了解决这些问题,研究人员进
学位