基于强化学习的兵棋决策方法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户：csy355

【摘要】

：

【作者】

：

李琛

【机构】

：

南京理工大学

【出处】

：

南京理工大学

【发表日期】

：

2021年01期

【关键词】

：

兵棋推演智能决策强化学习 Q-Learning Actor-Critic框架

【基金项目】

：

国家自然基金（61374186）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

兵棋推演是一种较为复杂的博弈对抗过程,是支持复杂对抗方案决策优化的重要手段。传统的基于兵棋推演的决策分析主要限于使用规则库、随机理论以及多属性综合评价等方法。虽然这些方法支持兵棋推演完成了不少博弈对抗决策的研究,但兵棋推演的策略分析状态空间较大,人力往往难以对大量的决策方案做出快速合理的评价;同时,支持兵棋推演决策的试验数据严重匮乏,导致基于数据驱动的决策方法难以奏效;此外,现有的强化学习算法不一定能完全适用于兵棋决策。因此,研究一种既能够快速进行方案决策,又不需要严格大量的数据进行启发式驱动的兵棋推演决策方法是迫切需要的。综上所述,本文针对不同场景设计了基于强化学习的兵棋决策方法,应用多种强化学习算法,并对其中部分算法进行了一定的改进。本文的主要工作如下:（1）梳理了现存兵棋决策研究方法的局限性,确定了研究的方式和具体的算法,构建了基于强化学习的兵棋决策方法研究的总体技术框架。（2）针对强化学习训练需要对抗对手的情况,分析了传统的产生式规则系统和多属性综合评价,建立了基于多属性综合评价的产生式规则系统。（3）针对单智能体想定,基于Q-Learning算法设计了兵棋决策方法,包括分析奖励函数的不足并改进,以及Q-Learning算法的应用设计;针对Q-Learning算法的不足提出了改进的基于动态决策指导的Q学习算法。（4）针对单智能体想定和多智能体想定,基于Actor-Critic框架分别设计并实现了Actor-Critic算法在单智能体和多智能体的兵棋决策方法;对于Actor-Critic算法在多智能体上的局限性以及MADDPG算法在兵棋环境下的局限,设计人类数据引导的多智能体深度确定性策略梯度算法,并基于此实现兵棋决策方法。（5）对以上算法进行了案例分析,可以得出Q-Learning算法、基于动态决策指导的Q学习算法、Actor-Critic算法和人类数据引导的多智能体深度确定性策略梯度算法均是有效的,相比于基于产生式规则系统的对手胜率更高;基于动态决策指导的Q学习算法相比于Q学习算法,后期胜率更高,收敛效果更好;人类数据引导的多智能体深度确定性策略梯度算法相比于多智能体Actor-Critic算法收敛更快,效果更优。

其他文献

猪CD169分子单克隆抗体制备及CD169在PRRSV感染中作用机制初探

猪繁殖与呼吸综合征（Porcine Respiratory and Reproductive Syndrome,PRRS）是一种高度传染性疾病,由猪繁殖与呼吸综合征病毒（Porcine Respiratory and Reproductive Syndrome Virus,PRRSV）引起,该病对全球生猪养殖产业带来了巨大的经济损失,随着病毒抗原的变异和新型PRRSV受体的不断发现,该病的致病机制

学位

猪繁殖与呼吸综合征病毒CD169单克隆抗体病毒感染

走向有追求、有规范的新闻创新——新闻业的危机及认知的危机

新闻是一个创新推动的知识生产行业。新闻创新有经验和规范这两个维度,对其认知（或认识,epistemic）规范的维度,我们亟须重述一个基本的理解,因为新闻业——不仅其自身,而且它所处的社会情境——正面临"认知的危机"（epistemic crisis）。作为一个真相探寻的行业,新闻业展开的创新,须在一个社会的"知识宪章"（the constitution of knowledge）及其构成的过程当中

期刊

新闻创新真相认知权威知识宪章公共生活

轨底坡对轮轨接触行为及动力学性能的影响

为探讨轨底坡对轮轨接触行为及动力学性能的影响，利用多体动力学软件SIMPACK，分析地铁B型车LM和S1002型踏面与60 kg/m钢轨在不同轨底坡下的轮轨接触点分布情况、滚动圆半径差、最大接触压力、临界速度以及车辆运行安全性和平稳性指标等，从接触几何和动力学性能两方面提出LM和S1002型面的最佳轨底坡组合。计算结果表明，轨底坡对轮轨接触行为及动力学性能均有较大影响。对于LM型面在直线段采用1/

期刊

振动与波轨底坡滚动接触接触几何动力学性能

2022年面粉企业标准“领跑者”名单

期刊

股东出资义务加速到期问题研究

我国公司资本缴纳制度于2014年3月1日正式改革为完全认缴制,公司股东的认缴出资内容自此完全成为公司自治事项,只需在公司章程中予以约定而不受任何限制。此举意在通过“资本松绑”的方式提升投资者的投资热情,从而激发市场创新动能和活力。但同时也引发了一个新的问题,在公司债权人的到期债务无法得到公司的清偿时,债权人是否可以直接请求公司股东提前缴纳出资以消灭公司到期债务,即股东出资义务应否加速到期的问题。由

学位

期限利益加速到期债权人保护股东出资义务

中国柑橘育种60年回顾与展望

过去的60年，中国柑橘遗传改良与品种选育研究取得长足进展。据统计，在中国重庆、武汉等地建立的柑橘种质资源迁地保存圃、愈伤组织库分别保存了1 700多份芸香科材料和100多个柑橘品种的胚性愈伤组织。经调查，发掘到道县野橘、莽山野柑、红河大翼橙等多个野生种及迷你野生柑橘——单胚山金柑；发掘的‘资阳香橙’已作为砧木应用于产业。累计选育柑橘新品种122个，包含121个接穗品种和1个砧木品种，涉及宽皮橘、橙

期刊

柑橘种质资源遗传改良育种品种组学

生活数学操作性教学要点初探

操作性教学是教师引导学生依靠操作实物进行的一种动态学习活动。培智学校生活数学课堂上开展操作性教学时应注重创设教学情境、调动学生多感官参与、开展操作活动以及教康结合等，从而提高学生课堂参与度，使之更好地掌握数学知识和技能。

期刊

操作性教学生活数学活动

基于深度神经网络多飞行器最优对抗研究

随着人工智能技术的发展,飞行器智能自主作战已成为未来飞行器空战不可缺少的技术基础和获胜手段。飞行器自主作战问题面临实时性和最优性的矛盾,即为了实现实时对抗作战,需要对自主作战算法进行简化,无法保证作战效能最优;最优效能算法解算速度无法满足实时性需求。为了解决飞行器自主作战问题,实现飞行器自主实时解算最优对抗策略,本文采用深度神经网络技术对其进行深入研究,主要研究内容和创新点如下:首先,针对空空导弹

学位

飞行器对抗微分对策半直接法伪谱法不可逃逸区DNN追逃博弈最优策略

杭州芦笋茎枯病病原鉴定与防治

2018—2020年，杭州佳慧芦笋种植基地疑似发现芦笋茎枯病危害，为了明确病原菌种类，将采集的病样进行致病菌分离纯化和鉴定，明确该病害为芦笋茎枯病，根据病原菌形态特征、通用引物及特异性引物扩增序列比对结果，该病原菌与天门冬拟茎点霉〔Phomopsis asparagi（Sacc.）Bubak〕同源性为100%，鉴定为天门冬拟茎点霉。生物学活性测定结果表明，25%吡唑醚菌酯悬浮剂对该病菌菌丝完全抑制

期刊

芦笋茎枯病天门冬拟茎点霉生物活性测定病原菌鉴定吡唑醚菌酯

“泛”媒介化背景下的国家形象传播——以纪录片《无穷之路》传播实践为例

“万物皆媒”，即各项社会互动及相关制度都会产生“媒介逻辑”的影响。“泛”媒介化意味着，媒介不是独立的存在，它带来媒介定义与媒介理解的传播新思考，亦革新了国家形象传播的思维方式。本文通过对纪录片《无穷之路》传播实践的分析，从主体、内容、渠道、受众几方面对国家形象传播进行思考与探索，以期让相关从业者更好适应“泛”媒介化时期的传播形式及惯例。

期刊

《无穷之路》“泛”媒介化传播策略国家形象

基于强化学习的兵棋决策方法研究

与本文相关的学术论文