融合认知行为模型的深度强化学习框架及算法

来源 :控制与决策 | 被引量 : 0次 | 上传用户：coosi

【摘要】

：

【作者】

：

陈浩李嘉祥黄健王菖刘权张中杰

【机构】

：

国防科技大学智能科学学院

【出处】

：

控制与决策

【发表日期】

：

2020年01期

【关键词】

：

认知行为模型强化学习近端策略优化深度Q网络 BDI GOAL 空战机动决策

【基金项目】

：

国家自然科学基金（61906202）；

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

面对高维连续状态空间或稀疏奖励等复杂任务时,仅依靠深度强化学习算法从零学习最优策略十分困难,如何将已有知识表示为人和学习型智能体之间相互可理解的形式,并有效地加速策略收敛仍是一个难题.本文提出一种融合认知行为模型的深度强化学习框架,将领域内先验知识建模为基于信念-愿望-意图（belief-desireintention, BDI）的认知行为模型,用于引导智能体策略学习.基于此框架,分别提出融合认知行为模型的深度Q学习算法和近端策略优化算法,并定量化设计了认知行为模型对智能体策略更新的引导方式.最后,通过典型gym环境和空战机动决策对抗环境,验证了提出的算法可以高效利用认知行为模型加速策略学习,有效缓解了状态空间巨大和环境奖励稀疏的影响.

其他文献

以终身体育为目标的学校体育课程内容构建

日常生活中，随处可见各个年龄段的人以各种方式进行体育锻炼。每个人在一生中，都要经历生长发育期、成熟期和衰退期，而每个时期都离不开体育锻炼，并且在不同时期适当地进行合适的体育锻炼对身体具有一定的积极影响。终身体育由家庭体育、学校体育和社会体育等体育教育层次构成，孩子从幼儿园到大学乃至更高学历，都离不开体育课。学校体育是终身体育的基础，学生在学校中通过学习掌握体育知识、技能，并养成锻炼身体的好习惯。体

期刊

终身体育学校体育体育课程内容构建

高中化学主题教学研究文献综述及教学启示

选取学术影响力比较大的期刊或引用率比较高的相关研究成果共83篇作为研究对象,分析化学科主题教学概念界定、要素分析,并为主题教学的进一步开展提出研究启示与建议。

期刊

高中化学主题教学文献综述

减负增效背景下小学语文家庭作业创新设计研究

有效的家庭作业设计能让学生对一天的学习进行消化巩固，构建起更为扎实的理论基础，帮助学生整理碎片记忆，加深对知识的印象，从而起到温故知新的作用。在小学语文教学中，家庭作业的设计更是必不可少的教学工作，教师要立足于课堂教学目标以及语文教学的整体需求，根据学生的需要进行家庭作业的创新，并且家庭作业不能过多，要遵循减负增效的原则进行家庭作业的创新设计，利用家庭作业不断推动小学语文教学工作的有效开展。一、减

期刊

浅谈微课在高中生物教学中的应用

高中阶段的生物学科教学，是指导学生学习生物学科的核心概念，了解生物学科史，展开对生物实验的探究学习。微课的出现为生物教学提供了更多便利，由于微课具有图文并茂、生动形象的特点，对于生物知识的描述也更加直观，因此可作为课堂教学重要辅助工具之一。下文围绕生物概念、学科史、生物实验三个方面对于微课的实践运用途径展开探讨，以供参考。

期刊

微课高中生物教学应用

连续性血液净化治疗重症脓毒血症的疗效及对血清TNF-α、IL-10水平的影响

目的分析连续性血液净化治疗重症脓毒血症的疗效和对肿瘤坏死因子-α（TNF-α）、白细胞介素-10（IL-10）水平的影响。方法选取2019年10月至2021年10月河南大学第一附属医院收治的68例重症脓毒血症患者的临床资料，随机分为常规组和血液净化组，每组34例。常规组予以常规治疗，血液净化组在常规组的基础上联用连续性血液净化。对比两组疗效、肾功能恢复时间、ICU住院时间、炎症反应。结果血液

期刊

重症脓毒血症连续性血液净化疗效炎性因子

踔厉奋发迎接党的二十大胜利召开

报纸

踔厉奋发大胜利中国特色社会主义

抢时奋进实干争先以实际行动喜迎党的二十大胜利召开

报纸

法人管项目实际行动过程管控健全完善绿色建造考核力度疫情防控项目群管理中国铁建稳增长提质增效精益化国资委

省级领导干部学习贯彻习近平总书记在省部级主要领导干部专题研讨班上重要讲话精神发言摘要

报纸

习近平总书记全面从严治党发言摘要

踔厉奋发谱新篇喜迎党的二十大

报纸

踔厉奋发中国特色社会主义习近平总书记自治区产业链

创新的价值、非对称信息与终身教职制度——兼论中国的高等教育改革

本文将高校的终身教职制度视为在非对称信息条件下鼓励重大创新的一种合同安排。我们证明,当科研人员的能力与努力同时不可观察时,“非升即走”的终身教职合同能够替委托人节约信息租金,因而在一定条件下是一种更具有效率优势的制度安排。我们发现,终身教职制度的产生与知识价值的提高、科研活动复杂程度的增加、科研成果反映个人能力的客观性等因素密切相关。特别地,本文还比较了终身教职制度的不同实施,发现当重大科研创新的

期刊

终身教职制度非对称信息效率“非升即走”

融合认知行为模型的深度强化学习框架及算法

其他学术论文