面向兵棋推演临机规划任务的知识模型嵌入式强化学习技术

来源 :国防科技大学 | 被引量 : 0次 | 上传用户：a753159456

【摘要】

：

【机构】

：

国防科技大学

【出处】

：

国防科技大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现代战争具有突出的博弈强对抗、响应高实时、信息不完全等特征,导致交战过程分支、预案决策分支、应急处置方案等难以事先设计,如何应对战场态势演化的不确定性,提升临机规划的时效性和准确性,已成为现代战争制胜的重要课题。兵棋推演是研究战争的重要手段之一,广泛应用于作战训练、方案评估等领域。基于兵棋推演,开展临机规划方法研究,并通过作战实验进行验证,是开发新型临机规划手段的重要途径。传统的临机规划主要依靠指挥员的历史经验,通过事先设计的决策规则及运筹优化模型等先验知识模型,采用专家系统手段,针对实时态势的变化进行二次规划。这种对先验知识的强依赖,导致传统方法难以应对现代战争态势快速演化的不确定性。近些年,随着深度强化学习等智能规划技术的不断发展,特别是Alpha Go、Alpha Star等系统的成功,给临机规划研究提供了新的思路。然而针对作战场景,以任务级兵棋为例,其具有比星际争霸、围棋等游戏环境更为复杂的约束条件、行动空间及状态空间,导致深度强化学习模型在兵棋临机规划任务中训练难收敛、决策难解释。针对以上问题,本文以任务级兵棋为实验平台,融合传统专家系统和现代试错学习两种模式,提出了“先验知识模型+深度强化学习”的临机规划方法,可有机融合先验知识模型可解释性高、训练时间短,深度强化学习人工经验依赖少、应对突发情况能力强等优点,形成了知识模型嵌入式强化学习算法,实现了深度强化学习对先验知识模型的分时调用与参数寻优两种融合模式。通过强化学习公测平台及兵棋推演系统实验表明,该方法可有效提升强化学习收敛速度、策略收益和可解释性。该方法还应用于2019和2020年全国兵棋推演大赛,均获得冠军。本文的主要工作和创新点包括:（1）构建了内嵌先验知识模型与强化学习智能临机规划方法相融合的框架体系。从任务临机规划业务“三级要素、两类规划”特点出发,设计了任务级智能临机规划方法框架,将研究对象定位于阶段目标与任务指令临机的智能规划;在实时态势认知环节设计了预判式多元态势信息编码方法框架,提出了复杂对抗环境下多元态势信息处理的基本模块与功能要求;在任务指令规划环节按先验知识模型调用方式设计了两类强化学习方法框架,通过构建等周期选项半马尔可夫决策过程（IOSMDP）模型,提出了先验知识模型分时调用式强化学习方法框架,形成了对全自主型先验知识模型的直接调用、独立执行的强化学习方法设计约束;通过构建组合动作马尔可夫决策过程（CAMDP）模型,提出了组合参数寻优式强化学习方法框架,形成了对超参数型模型组合配参启用、组合寻优的强化学习方法设计约束。三个方法框架覆盖了临机规划业务流程,从调用方式出发给出了内嵌先验知识模型强化学习的基本模式,为后续开展关键技术研究提供了方法框架支撑。（2）提出了态势信息预见式对照表征方法。针对当前传统单帧态势信息拼接处理方法无法编码态势演化趋势的不足,基于预判式多元态势信息编码方法框架,提出了一种预见式对照表征方法,针对时序态势信息设计了自回归编码器,提出了当前态势编码与未来态势演化的互信息损失量,实现态势时序特性的相关度预判性表征。通过强化学习公测平台与兵棋系统,验证了本方法提升强化学习训练效率的有效性,实验表明本方法可以准确捕捉影响态势发展的态势特征,并且针对噪声及无价值态势信息具有良好的抗干扰性。（3）提出了一致时间尺度分时调用强化学习方法。传统针对时间延展性动作的控制主要基于半马尔可夫决策过程（Semi-MDP,SMDP）建模,态势信息与决策控制在时间尺度上存在不一致,导致强化学习寻优效率较低。本文按照先验知识模型分时调用式强化学习方法框架,提出了等周期选项半马尔可夫决策过程（IOSMDP）模型,设计了一致时间尺度分时调用强化学习方法,实现了时间尺度上的一致性学习。公测平台与兵棋系统上的实验表明,与经典强化学习方法及传统先验知识模型相比,一致时间尺度分时调用强化学习方法可以明显加快算法训练收敛进度,且能够取得更好的策略收益。（4）提出了策略价值双网络参数组合寻优强化学习方法。编队任务级临机规划往往需要将多个超参数型先验知识模型搭配使用针对连续型超参数先验知识模型调用问题,本文吸收参照CAMDP模型的组合动作分解设计,依据先验知识模型参数组合寻优式强化学习框架要求,设计了策略价值双网络参数组合寻优强化学习方法,将多维组合动作分解为一维原子动作后,为每个原子动作决策配置价值网络（Q值）与策略网络,解决了连续型超参数的优化生成问题,形成了对超参数型先验知识模型组合的调用能力。经公测平台与兵棋系统实验,证明了该方法在训练效率与策略收益方面均优于同类传统算法。（5）实现了空中编队任务级智能临机规划案例研究。从典型海空对抗场景出发,基于任务级兵棋博弈平台实现了空中编队任务级智能临机规划过程态势信息预处理、任务临机规划、任务指令生成的完整过程。在态势信息预处理阶段,设计了“全局态势信息统计向量+区域态势信息统计网格”的态势信息处理方法;在任务临机规划阶段,首先设计了空中编队任务级临机规划先验知识模型,而后基于态势信息预见式对照表征方法、一致时间尺度分时调用强化学习方法、策略价值双网络参数组合寻优强化学习方法,提出了包含空中编队战场态势智能认知、阶段目标智能判定、行动样式智能指控的完整任务级智能临机规划流程。实验表明智能体学习到了目标转进、行动样式指控等对抗策略。相关模型应用于2019、2020年全国兵棋推演大赛,均获得冠军（全国特等奖）。

其他文献

基于“血管-脏腑-证治”防治泛血管疾病的中医思考

泛血管指人体血管系统，是动脉、静脉、淋巴管所构成的复杂网络，泛血管疾病指一组血管系统疾病，以血管粥样硬化为共同病理特征，因缺血或出血造成心、脑、肾、肢体等靶器官病变，具体包括动脉系统病变、静脉系统病变、微循环系统病变，及“血管-脏腑”“脏腑-血管”相关病变。泛血管疾病概念整合了血管病变及靶器官损伤。临床将多个区域血管融合成为广泛的血管单元系统，并将血管病变及其所致靶器官损伤视为整体，根据中医整体观

期刊

基于麻雀搜索算法的福建省碳达峰路径优化研究

应对全球碳减排的紧迫挑战，可靠的碳达峰路径对中国碳减排的实施具有重要作用。然而，由于碳排放过程受众多因素影响，且相互作用复杂，传统情景分析方法难以有效识别最优减排路径。为此，在分析福建省的能源消费和碳排放数据的基础上，构建了麻雀搜索算法-支持向量回归模型（Sparrow Search Algorithm-Support Vector Regression,SSA-SVR）模型，该模型综合考虑了影响

期刊

基于DCC-GARCH-ΔCoVaR模型的碳市场和煤炭市场风险溢出效应研究

基于武汉、广东、深圳碳市场和煤炭市场的收益率数据，运用DCC-GARCH模型刻画碳市场和煤炭市场收益率的非线性相关性，进而基于上述模型得到的参数，运用ΔCoVaR模型测算出碳市场和煤炭市场间的风险溢出效应。结果表明：在碳市场建设初期，碳市场和煤炭市场的风险溢出效应主要表现为煤炭市场对碳市场的单向风险溢出效应。随着市场的不断完善，煤炭市场与碳市场之间会产生双向的风险溢出效应；煤炭市场对武汉碳市场表现

期刊

党建引领如何破解中国基层治理的三重困境?——基于广州市南沙区的实践

中国基层治理存在资源、权限和激励三重困境,如何充分发挥党建引领的核心作用破解这些困境,是提升基层治理效能的关键。研究借鉴组织变革理论搭建分析框架,基于广州市南沙区党建引领基层治理改革实践,发现党建引领利用信息化建设、流程再造、结构调整、机制设计和文化重塑的系列措施,形成组织建设、权威协同和激励驱动等三条机制路径,有助于破除基层治理中普遍面临的三重困境,推动了中国基层治理格局的整体变革。未来推进基层

期刊

互联互通背景下我国内地与香港股市间风险溢出效应研究

我国多层次资本市场不断完善，沪港通、基金互认、债券通、深港通、跨境理财通等系列制度不断推进内地和香港金融市场的互联互通。在这一背景下，本文选取沪深主板、创业板、中小板、新三板以及香港主板五大股市，构建方差分解溢出指数，从时域和频域两方面深入考察我国股市间跨市场跨地区的波动溢出关系，并对总溢出效应的影响因素进行实证检验。研究结果表明：我国股市间具有显著的跨市场跨地区溢出效应，其中香港主板一直是溢出净

期刊

Android平台上基于H.265的视频测评软件开发

针对全新编解码技术H.265,研究并实现了基于Android平台的视频质量评估软件开发。首先通过分析H.265编解码标准的特点和VLC多媒体播放器的解码方式,获取了VLC播放器解码后的YUV数据。再针对YUV数据进行了分辨率、帧率、清晰度、亮度、色度等五个方面的评估分析,并结合主观分析对该五项建立了合理的视频评分体系。最后基于简洁明了的UI界面设计,为用户清晰地展示了评分结果。

期刊

基于LEAP模型的江苏省重点行业碳达峰碳中和情景

通过对江苏省未来能源需求和碳排放情景的深入分析，制定达到碳达峰和碳中和目标的战略。采用LEAP模型对2021～2060年不同情景下的能源需求和碳排放进行预测。研究发现，在基准情景下，江苏省重点行业的能源需求呈高速增长，2021～2060年能源消费量增加2.35倍，年均增速为3.46%。而在政策执行、可持续发展和创新推进情景下，能源消费总量显著降低，分别为45.98%、58.96%和86.13%，展

期刊

泛血管疾病临床生物标志物研究的范围综述

描述和综合国内外泛血管疾病（PVD）生物标志物的相关研究，根据范围综述的研究方法，在中国知网、万方数据库、维普网、Pub Med、Embase、Web of Science、Cochrane Library等数据库进行系统检索，检索时间为建库至2023年1月17日。2名研究人员依据文献纳入标准和排除标准独立进行文献筛选和数据资料提取。共纳入16篇文献，其中队列研究6篇、病例对照研究5篇、横断面研究

期刊

泛血管医学时代“脑心同治”手术与展望

“脑心共病”逐渐受到国内外神经外科和心血管内外科医师的重视，并着手开展“脑心同治”手术互为保障，“泛血管医学”概念提出多学科交叉、跨学科整合的研究模式和发展理念。泛血管医学思想对“脑心同治”手术具有重要指导意义，“脑心同治”手术又使“泛血管医学”概念更加完整与深化。现阶段坚持以动脉粥样硬化性疾病为基础进行手术实施设计，“脑心同治”手术将在未来突破传统的颈动脉与冠状动脉同期手术范畴，过渡到以血管重建

期刊

可逆环肽药物分子设计、合成与评价

在癌症患者日渐增长以及细菌耐药性越来越重,抗癌抗菌药物的选择极其有限的当下,多肽类药物因具有很高的抗肿瘤抗菌能力、高生物相容性,且不易产生耐药性,因而受到科研人员的青睐。然而,受限于蛋白酶解稳定性差、溶血和细胞毒性强、选择性差等缺点,导致临床上应用率较低。因此,研究并开发出选择性强、高效低毒的多肽药物迫在眉睫。为了提高多肽药物的稳定性和选择性,以及降低溶血和细胞毒性,研究者们提出了很多策略,比如用

学位

面向兵棋推演临机规划任务的知识模型嵌入式强化学习技术

与本文相关的学术论文