深度强化学习的不同记忆网络融合研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户：zhongyi02w

【摘要】

：

【作者】

：

关志浩

【机构】

：

云南财经大学

【出处】

：

云南财经大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度强化学习算法将传统强化学习与深度学习两者结合,是目前解决高维决策任务的一类典型算法,已在各领域广泛应用并取得了突破性进展。但是传统的深度强化学习在面对长时间间隔决策游戏以及长间隔决策中需要智能体定点导航的长时间间隔游戏表现不佳,本文针对此问题做出了如下研究:本文提出了融合门循环单元的深度循环Q网络以解决在智能体长时间间隔决策中表现不佳的问题。智能体只能通过有限的画面做出的决策,会出现之前游戏画面中有价值的信息被忽略的情况。传统的深度Q网络的输入是由最近的4帧画面组成,这导致了智能体难以针对过去十几帧中的信息做出合理的规划。本文提出了将深度强化学习与门循环单元融合的设想,通过记忆网络能够存储过去记忆的能力来控制智能体跨较长时间去做出合理规划与控制。最终融合了门循环单元的深度强化学习在部分游戏上比原版深度强化学习算法在得分能力上有明显提升,证明了深度循环Q网络有效性。本文在上一部分的基础上提出了融合记忆网络的记忆循环Q网络模型来解决智能体在需要提前做出定点导航的游戏能力不强的问题。部分游戏需要智能体在特点时间点到达某一特定位置才能成功避开障碍。并且针对某一关卡训练得到的智能体在处理新的关卡时,其表现也不佳,缺乏迁移学习的能力。记忆网络能够自己写入与读取记忆的能力来解决相似地图的迁移学习的问题,但是其存在着难以适应动态环境的问题,所以融合了门循环单元的内部记忆网络再加上外部记忆网络很好地解决适应动态环境的问题,并且获得了迁移学习的能力。记忆循环Q网络在特定游戏中比深度循环Q网络得分能力强20%左右,在该游戏其他类似的关卡中也同样表现优异,证明其拥有相当的泛化能力。本文最后针对上述两个模型在各种情况下的表现做出了总结,并且提出针对当前研究的内容中存在的问题以及对未来研究工作的展望。

其他文献

基于重采样和集成学习的不平衡数据分类与应用研究

计算机技术的快速发展带来了复杂的信息,怎样从中获得实用信息是十分有待探索的,机器学习中的分类算法在其中起到了不可或缺的角色。传统的分类方法假定不同类别的样本数目和不同类别被错分的代价相差不大,然而在分类问题中往往会出现数据不平衡的情况,这时传统的分类方法就不适合对不平衡数据进行分类,因此对不平衡数据进行分类是一个很有现实意义的问题。欠采样和过采样都存在着一些缺点,比如前者没有考虑多数类中所蕴含的某

学位

一种面向不同人格特征的生成式聊天机器人的模型研究与设计

在各大平台智能聊天机器人代替人工在线回复的背景下,人类从广义上来说已经进入了人工智能时代。尤其随着大规模深度神经网络学习模型的发展,聊天机器人背后的内容生成不再按照传统方式依靠模板匹配与检索,而是基于深度学习模型算法的实时生成方式。随着应用越来越广,效果越来越好,聊天机器人越来越受欢迎,使其成为了一个非常热点的人工智能的研究方向。心理学家基于荣格的心理类型研究理论提出:人类的心理理论研究可以通过能

学位

基于区块链的可信通信研究

随着网络技术的不断发展,通信成为人们正常生活中提升效率的重要技术。但是,大数据时代数据的爆发式增长为恶意个人收集通信领域用户的隐私数据提供了机会,用户身份与数据的隐私问题逐渐暴露出来。非透明的中心化通信机制由于通常存在单点失效、隐私被窃取和易被黑客攻击的缺点,难以解决通信过程中的隐私安全问题。而区块链技术的不断发展,为解决通信过程中隐私安全问题提供了新思路。通过对传统通信模式与基于区块链技术的通信

学位

区块链标识解析系统研究

随着当今社会的迅速发展,数字化和信息化的程度越来越高,信息的安全与共享问题被越来越多的人所关注。区块链技术的快速发展,人们发现区块链技术具有去可信第三方的共信特性,区块链的数据对所有人公开,任何人都可以通过公开的接口查询数据,整个系统的信息高度透明,且数据拥有者（即用户）可以自己控制数据,而不是将数据交由不可信的第三方保管。于是人们利用区块链技术,在一定程度上解决了信息的安全共享问题。但是新的问题

学位

数字化转型、战略差异度与审计投入

“十四五”规划纲要提出的推动“产业数字化”标注着数字化转型上升为国家层面的政策,体现了数字化转型政策地位更高。目前对企业数字化转型经济后果研究方兴未艾,基于行业间的关联性,企业的风吹草动会对审计行业产生一定程度的影响,企业战略也是审计师在制定审计决策时需要考虑的关键问题。因此,本文探究数字化转型与战略差异度的交互作用对审计师的审计投入产生的影响。本文选取2007-2020年沪深A股非金融类上市公司

学位

面向财富三次分配领域的Agent模型研究

当前,我国居民财富分配差距显著,为了实现共同富裕的模式,国家不断出台财富三次分配的相关政策。目前,基于财富三次分配的研究中,国内专家学者多集中于对现有政策的理论研究。本文基于多智能体系统（Multi-Agent System,MAS）理论,利用多智能体技术模拟经济领域演化过程,分析财富三次分配的影响因子,能对即将出台的相关政策进行前瞻性分析,模拟仿真政策带来的影响作用,对于共同富裕模式的实现具有重

学位

面向不平衡数据分类的强化学习迁移算法研究

随着科技的飞速进步,数据的产出量已经达到了史无前例的水平,而且这些数据可以被大量地收集、存储,因此,不同行业对于数据的处理需求也日益提升。在机器学习和数据挖掘领域,分类技术被广泛应用,它可以帮助我们快速、准确地识别出复杂的信息,而这些技术可以通过多种机器学习方法来实现。数据分类技术已经成为智能化处理的重要工具,它可以有效地帮助我们更好地识别和预测数据集上的各种类别,从而大大提高数据分析的工作效率和

学位

融合强化学习机制的不平衡数据集成分类算法研究

随着科技的发展,各行业数据的收集和处理变得越来越容易,而迅速整理和挖掘数据中隐含的信息,不仅能够有效提升各行业的智慧数据处理技术能力,还能够为相关行业的发展提供强有力的支撑。随着数据量的不断增加,数据的分布逐渐呈现出不平衡的趋势,相对于数据集中占比较多的样本,样本数量少的一类才是人们需要深入研究的重点。如在医学检测、垃圾邮件过滤、银行卡防欺诈等方面,数据分布的不平衡更是普遍存在,有效地解决这一问题

学位

基于图神经网络的虚拟网络嵌入模型与算法研究

当前,5G网络广泛应用,6G网络研究备受关注,但硬件网络发展缓慢,需研究网络虚拟化技术以实现资源共享,其中虚拟网络嵌入问题是关键挑战。为了满足和平衡网络服务提供商和用户的需求,所设计的虚拟网络嵌入算法需要尽可能的提高网络服务提供商的收益和用户的体验。针对现有的方案的优化目标通常集中在单一指标或多个指标的简单组合上,难以合理的进行虚拟网络请求的嵌入,实验结果也不尽如人意。本文提出了两种基于图神经网络

学位

基于复杂网络的雷达辐射源信号特征提取研究

在现代雷达电子对抗的信息战场上,面对信号高度密集、新体制雷达日益复杂的电子对抗环境,以常规参数为基础的雷达辐射源信号分选识别已经难以取得令人满意的效果;基于数学变换域的雷达脉内特征提取方法虽然有很高的研究热度,但建立有效的雷达信号序列表征分析模型仍然是一个难点,这不仅直接影响了辐射源信号分选和识别的性能,还给现代化的雷达情报侦察带来了新的挑战。因此,在复杂的电磁环境中,如何探索和研究雷达辐射源信号

学位

深度强化学习的不同记忆网络融合研究

与本文相关的学术论文