论文部分内容阅读
现代战争具有突出的博弈强对抗、响应高实时、信息不完全等特征,导致交战过程分支、预案决策分支、应急处置方案等难以事先设计,如何应对战场态势演化的不确定性,提升临机规划的时效性和准确性,已成为现代战争制胜的重要课题。兵棋推演是研究战争的重要手段之一,广泛应用于作战训练、方案评估等领域。基于兵棋推演,开展临机规划方法研究,并通过作战实验进行验证,是开发新型临机规划手段的重要途径。传统的临机规划主要依靠指挥员的历史经验,通过事先设计的决策规则及运筹优化模型等先验知识模型,采用专家系统手段,针对实时态势的变化进行二次规划。这种对先验知识的强依赖,导致传统方法难以应对现代战争态势快速演化的不确定性。近些年,随着深度强化学习等智能规划技术的不断发展,特别是Alpha Go、Alpha Star等系统的成功,给临机规划研究提供了新的思路。然而针对作战场景,以任务级兵棋为例,其具有比星际争霸、围棋等游戏环境更为复杂的约束条件、行动空间及状态空间,导致深度强化学习模型在兵棋临机规划任务中训练难收敛、决策难解释。针对以上问题,本文以任务级兵棋为实验平台,融合传统专家系统和现代试错学习两种模式,提出了“先验知识模型+深度强化学习”的临机规划方法,可有机融合先验知识模型可解释性高、训练时间短,深度强化学习人工经验依赖少、应对突发情况能力强等优点,形成了知识模型嵌入式强化学习算法,实现了深度强化学习对先验知识模型的分时调用与参数寻优两种融合模式。通过强化学习公测平台及兵棋推演系统实验表明,该方法可有效提升强化学习收敛速度、策略收益和可解释性。该方法还应用于2019和2020年全国兵棋推演大赛,均获得冠军。本文的主要工作和创新点包括:(1)构建了内嵌先验知识模型与强化学习智能临机规划方法相融合的框架体系。从任务临机规划业务“三级要素、两类规划”特点出发,设计了任务级智能临机规划方法框架,将研究对象定位于阶段目标与任务指令临机的智能规划;在实时态势认知环节设计了预判式多元态势信息编码方法框架,提出了复杂对抗环境下多元态势信息处理的基本模块与功能要求;在任务指令规划环节按先验知识模型调用方式设计了两类强化学习方法框架,通过构建等周期选项半马尔可夫决策过程(IOSMDP)模型,提出了先验知识模型分时调用式强化学习方法框架,形成了对全自主型先验知识模型的直接调用、独立执行的强化学习方法设计约束;通过构建组合动作马尔可夫决策过程(CAMDP)模型,提出了组合参数寻优式强化学习方法框架,形成了对超参数型模型组合配参启用、组合寻优的强化学习方法设计约束。三个方法框架覆盖了临机规划业务流程,从调用方式出发给出了内嵌先验知识模型强化学习的基本模式,为后续开展关键技术研究提供了方法框架支撑。(2)提出了态势信息预见式对照表征方法。针对当前传统单帧态势信息拼接处理方法无法编码态势演化趋势的不足,基于预判式多元态势信息编码方法框架,提出了一种预见式对照表征方法,针对时序态势信息设计了自回归编码器,提出了当前态势编码与未来态势演化的互信息损失量,实现态势时序特性的相关度预判性表征。通过强化学习公测平台与兵棋系统,验证了本方法提升强化学习训练效率的有效性,实验表明本方法可以准确捕捉影响态势发展的态势特征,并且针对噪声及无价值态势信息具有良好的抗干扰性。(3)提出了一致时间尺度分时调用强化学习方法。传统针对时间延展性动作的控制主要基于半马尔可夫决策过程(Semi-MDP,SMDP)建模,态势信息与决策控制在时间尺度上存在不一致,导致强化学习寻优效率较低。本文按照先验知识模型分时调用式强化学习方法框架,提出了等周期选项半马尔可夫决策过程(IOSMDP)模型,设计了一致时间尺度分时调用强化学习方法,实现了时间尺度上的一致性学习。公测平台与兵棋系统上的实验表明,与经典强化学习方法及传统先验知识模型相比,一致时间尺度分时调用强化学习方法可以明显加快算法训练收敛进度,且能够取得更好的策略收益。(4)提出了策略价值双网络参数组合寻优强化学习方法。编队任务级临机规划往往需要将多个超参数型先验知识模型搭配使用针对连续型超参数先验知识模型调用问题,本文吸收参照CAMDP模型的组合动作分解设计,依据先验知识模型参数组合寻优式强化学习框架要求,设计了策略价值双网络参数组合寻优强化学习方法,将多维组合动作分解为一维原子动作后,为每个原子动作决策配置价值网络(Q值)与策略网络,解决了连续型超参数的优化生成问题,形成了对超参数型先验知识模型组合的调用能力。经公测平台与兵棋系统实验,证明了该方法在训练效率与策略收益方面均优于同类传统算法。(5)实现了空中编队任务级智能临机规划案例研究。从典型海空对抗场景出发,基于任务级兵棋博弈平台实现了空中编队任务级智能临机规划过程态势信息预处理、任务临机规划、任务指令生成的完整过程。在态势信息预处理阶段,设计了“全局态势信息统计向量+区域态势信息统计网格”的态势信息处理方法;在任务临机规划阶段,首先设计了空中编队任务级临机规划先验知识模型,而后基于态势信息预见式对照表征方法、一致时间尺度分时调用强化学习方法、策略价值双网络参数组合寻优强化学习方法,提出了包含空中编队战场态势智能认知、阶段目标智能判定、行动样式智能指控的完整任务级智能临机规划流程。实验表明智能体学习到了目标转进、行动样式指控等对抗策略。相关模型应用于2019、2020年全国兵棋推演大赛,均获得冠军(全国特等奖)。