【摘 要】
:
从上世纪末起,智能无人武器在全球范围内几次重大的局部性战争中可谓出尽了风头,而随着本世纪初人工智能技术的又一次爆发增长,人工智能技术赋能未来战场的呼声日渐高涨。的确,随着人工智能、群体智能的高速发展,智能无人武器领域出现一个新的契机:智能无人武器的集群化应用,这将给各层次对抗提供更多的战略及战术选择,也将对未来战场产生颠覆性的巨大影响。本文基于此背景,针对异构多智能体对抗问题在应用强化学习技术时存
论文部分内容阅读
从上世纪末起,智能无人武器在全球范围内几次重大的局部性战争中可谓出尽了风头,而随着本世纪初人工智能技术的又一次爆发增长,人工智能技术赋能未来战场的呼声日渐高涨。的确,随着人工智能、群体智能的高速发展,智能无人武器领域出现一个新的契机:智能无人武器的集群化应用,这将给各层次对抗提供更多的战略及战术选择,也将对未来战场产生颠覆性的巨大影响。本文基于此背景,针对异构多智能体对抗问题在应用强化学习技术时存在的稀疏奖励性及若干问题展开研究,针对问题的设定,进行模型建立及程序设计,在集群攻防对抗、集群护航对抗、集群警戒对抗任务场景下对算法进行了仿真验证,主要包含以下方面:(1)针对所研究问题,进行场景模型及对抗规则设计。在场景方面,提出三种典型任务场景:攻防对抗、护航对抗、警戒对抗,并对以上场景进行场景描述及任务分析。接着以异构集群为基准对任务场景构成单元种类及数量进行设计,为实现多类型单元协同策略对抗,本研究设计攻击单元、防御单元、探测单元等多种类异属性单元,针对不同种类,设定不同特点侧重的单元属性值。最后针对三种不同任务场景,分别对对抗敌方策略、对抗胜负判别规则进行设计。(2)在上述场景模型的基础上,针对异构多智能对抗问题在应用强化学习技术时存在的奖励稀疏性问题,提出局部回报重塑的方法,并在集群攻防对抗、集群护航对抗、集群警戒对抗三种典型任务场景验证了该方法在异构多智能体对抗策略学习过程中的有效性。(3)基于局部回报重塑的奖励机制扩充方法是十分有效的,但由于本领域问题奖励稀疏性问题过于严重,通过该方法扩充后的奖励体系依旧存在明显不足,这会严重影响训练学习过程的快速性。基于此,本研究叠加采用经验优先回放技术并通过攻防对抗任务场景对该方法进行了验证,结果表明叠加经验优先回放技术可以更好的解决奖励稀疏性问题。
其他文献
伴随着信息技术的迅猛发展,信息表示形式也日益丰富,互联网中存在着海量数据和有价值的信息。但不同数据信息只能在内部交换,信息交流存在困难。另外,单一数据源无法多方面体现数据特征信息,携带信息属性不全面。将多源数据融合可以对数据信息进行更全面的表示,对信息交流、重用有重大意义。因此,本文从多源数据本体建模、本体相似度计算,融合数据库语义查询三方面对多源数据融合任务展开深入研究,具体工作如下:首先,本文
随着人工智能技术的发展,各种基于人工智能的产品和服务逐渐在产业界落地应用,人工智能技术的崛起主要依托于深度学习模型在机器学习任务中取得的突破性进展。但是最近的研究表明,深度学习模型易受到对抗攻击的威胁,对抗攻击的研究已成为人工智能安全领域的一个热点。研究对抗攻击对于评估机器学习算法的完整性和安全性、评估模型的鲁棒性以及促进防御算法的产生都有着积极意义。在对抗攻击中,基于决策的黑盒攻击需要对模型进行
随着人工智能、大数据、云计算等信息技术不断取得突破,数字经济蓬勃发展,生产者对于生产过程中的智能信息化需求日益增长,因此,利用机器人流程自动化来提高生产效率成为了一种新趋势。然而,传统机器人流程自动化中的软件机器人智能化程度较低,对一些重复性工作进行自动化处理,灵活性差,不能应对现有应用软件上复杂多样的操作任务,无法满足智能化需求。为此,本文进行了面向典型应用的软件机器人系统的研究、需求分析、设计
为帮助语言能力和精细操作能力受损的老龄及残障人士(例如中风病人等)更简单易用的掌控载臂式轮椅机器人(Wheelchair Mounted Robotic Arms,WMRA)执行非结构化任务,本文提出一种通过激光点点取场景物品来推理动作意图、适应非结构化环境的语义激光直觉交互操作方法,并重点针对该方法中激光锁定物品涉及的激光语义、物品类别以及后续动作等“上下文”信息的快速可靠识别技术进行了研究。关
无人驾驶的相关研究是车辆工程领域研究的热点,路径规划作为无人驾驶的关键技术之一更是吸引了许多的研究者关注,但是目前大多数的路径规划研究还都主要着眼于结构化环境,而对于非结构化环境下的路径规划方法还没有很好的研究方法,因此本文对于非结构化环境下的路径规划方法展开了研究。路径规划需要在已知的环境地图中进行规划,因此本课题研究设计了建立非结构化环境地图的方法。在该方法中利用激光雷达获取环境中的原始点云数
随着人工智能技术、数字化技术的迅速发展,智能算法在虚拟装配中的应用取得了飞快的进步,利用遗传算法、蚁群算法以及神经网络算法等智能算法进行虚拟装配设计早已成为虚拟制造领域的重要研究方向。相较于其它智能算法,神经网络算法因具有良好的信息获取能力与知识学习能力逐渐成为装配规划研究的重要研究方向,但由于存在局部极值和训练效率慢问题,在虚拟装配中的应用效果存在很多不尽如人意的地方。此外,在装配序列规划方面,
随着社会的发展和经济水平的提升,人们对于地震作用的关注点已从生命安全上升至综合经济损失。基于性态的抗震设计理论突破了传统抗震设计以“保证生命安全”为主要设防目标的局限,以有效控制人员伤亡和经济损失、保障结构使用功能为目标。同时,基于位移的抗震设计方法被认为是实现基于性态的抗震设计理论最有效的途径之一。如加速度设计谱在基于力的抗震设计中的重要作用,位移设计谱是基于位移的抗震设计方法中确定地震作用的重
目前我国存在大量的偏瘫患者,但由于康复资源分配不均与康复医师严重短缺等原因,多数患者没有得到及时的康复治疗,因此设计一款适合偏瘫康复的机器人是亟待解决的问题。在此背景下,本文基于膝关节康复机器人对控制策略与控制系统等方面展开了研究,主要工作如下:首先进行了控制方案设计。简述偏瘫的特征与治疗方法,表明偏瘫患者在不同的康复阶段应采取不同的运动模式;对下肢运动展开了分析,并建立了膝关节运动学模型;提出了
由于多智能体系统具有广大应用前景,事件触发控制拥有节省通信资源等优势,因此,本文基于事件触发控制研究了多智能体系统的一致性问题很有价值和意义,主要的研究内容主要包含以下几个方面:首先,本文考虑当通信拓扑为无向连通图时,研究具有一阶积分器模型的线性多智能体系统的事件触发一致性问题。为了减少智能体之间的连续通信,对每个智能体采用了分布式事件触发算法。由给定的触发条件决定是否更新控制器并向邻居智能体传递
近些年我国在航天领域捷报频传,航天科技是当今世界最复杂、最庞大、最具风险的领域。由于航天活动的特殊性,在技术研发过程中,必须要在地面进行核心关键技术的仿真与验证。气浮台控制系统由于其制造成本较低、工作时间较长、模拟精度较高、引入扰动较小、实验平台较大等突出优势,可以被用来有效地模拟航天器姿轨控制、交会对接等重要实验。然而,现实气浮台控制系统中普遍存在执行器饱和的限制,在气浮台控制系统设计时,如果不