基于值的免模型深度强化学习算法研究与改进

来源 :深圳大学 | 被引量 : 0次 | 上传用户:whf19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一类关键的机器学习方法,普遍应用于以目标为导向的训练环境,并基于目标在环境中自发地探索最优策略。近来已在一些领域,如游戏操控、机器人操控、车辆自动驾驶等工程应用的部分问题中,获得显著的成绩,其中包括动态规划算法,应用于已知完整的马尔可夫问题模型;蒙特卡洛算法,与时间差分算法基于无模型问题进行寻策,是本文的主要研究内容。深度学习在机器学习中作为另一大热门研究技术,使用非线性的神经网络于分析高维度输入数据的特征,从而学习用于各类场景。深度强化学习通过深度学习分析状态空间特征,利用强化学习输出决策动作,从而能够解决现实生活中高维度、大规模的寻策问题。深度强化学习中,经验样本需要智能体在实际场景中经历得到,而经验样本在很大程度影响智能体的学习成果。为了平衡探索度与最优贪心寻策的关系,常用的探索方法在动作空间引入噪声来进行探索,该方法有简单且训练效率高的优点,但难以根据训练进程进行调整。一种改进方法是在参数空间加入噪声,通过梯度下降学习噪声参数,在增加探索度的同时也带来减缓训练进程的弊端。针对这个问题,本文提出了动态噪声竞争Q网络算法,结合竞争网络结构和动态噪声模型,实验结果表明,提出的方法取得了更好的训练表现,训练稳定性有明显提升。在稀疏奖赏环境中,智能体很容易在训练中获取不到任何信息,且容易陷入反复探索已知状态的困境。为缓解这个问题,本文提出基于优先状态估计深度Q网络算法,在对状态进行访问时给予优先值,结合外部奖赏一并存入经验池中,引导探索的策略方向,使得智能体更倾向于探索未知状态以打破困境。在简单稀疏奖赏环境中进行试验比,结果表明该方法相对于基准算法在稀疏奖赏环境中具有更好的学习性能,取得了更高的平均分数。然而更复杂的稀疏奖赏环境往往伴随着复杂动作序列,为了减少该问题带来的影响,提出阶段式迁移学习方法,并利用实际游戏开发环境进行实验测试,结果表明阶段式学习方法很好的引导了智能体的学习方向,取得了更好的训练表现。
其他文献
随着大数据、人工智能的高速发展,大数据系统平台数据量的规模呈爆炸式增长,庞大的数据量对数据存储和网络传输提出了不小的挑战,为了应对这一系列挑战,必须保证大数据平台数据存储中心的高效率存储和网络传输的高吞吐量,对平台上待存储的数据先进行压缩后再处理是应对这一挑战的有效手段,Gzip压缩算法因其压缩率高、压缩速度快被广泛应用于数据压缩领域。传统的Gzip软件压缩虽然可以实现数据压缩,但会占用通用处理器
随着大数据时代的到来,挖掘海量数据流的实时价值对于各行各业来说越来越重要。这类高速产生的流式数据通常具有实时性、动态性及持续性等特征,并且人们很难预测其未来的分布特性。分布式流处理系统可以满足企业人员处理实时数据流的需求。为了提高处理数据流的吞吐量,分布式流处理系统会利用流应用中的数据并行性。然而,倾斜分布的数据流常常会导致算子的并行实例之间的负载分配不均衡。其中,高负载的节点会拖累系统的处理速度
步态是一种流行的生物识别技术,可以远距离识别人类。它应该是唯一可以在远距离收集的生物特征。由于其独特的优势和在视频监控中的巨大潜力,在过去的20年中,许多研究人员对其进行了研究。尤其是近几年来,随着深度学习的发展,步态识别有了很大的提高。如今指纹、人脸识别的技术愈发成熟,但是步态识别技术的应用还面临许多挑战,比如摄像头视角变化、衣着变化等对识别的影响,所以我选择步态识别这个课题,希望能为解决步态识
多任务进化是进化领域中的一个新兴研究方向,主要研究如何充分利用任务之间的协同作用提高种群搜索的效率和性能。相对于传统的单任务进化,多任务进化能够通过多个任务之间的知识迁移提高算法的性能和进化的效率。基于多任务进化框架提出的单目标多任务进化算法和多目标多任务进化算法已经进化获得了优异的成果。本文对多任务进化算法进行了研究,并且对该领域做出了以下贡献:(1)提出了一个基于种群分布的两阶段知识迁移多任务
图像是日常生活中的重要信息媒介,在获取、使用等过程中,不可避免受到噪声的影响,破坏图像的质量,妨碍后续的处理。图像去噪问题是典型的病态逆问题,通常是图像迭代求解算法的关键步骤,需要利用先验信息对其进行正则化约束。通常图像去噪技术利用单幅图像的各种先验特征,结合不同滤波方法完成去噪,可采用的先验信息有限,难以有效选取特征保护图像边缘细节,且需手动多次调整参数,效率较低。近年来以卷积神经网络为代表的深
随着信息科技的逐步发展,人们越来越能更加快捷方便地获取信息。但网络技术的迅猛发展与网络信息量的快速增长,却使人们逐渐迷失在大量无效信息的包围中。信息超载问题伴随着信息科技与互联网的发展逐渐被人们重视、研究,由于信息超载问题使得人们在面对海量信息时无法有效获取自己感兴趣或者对自己真正有用的信息,使得信息整体的使用效率降低。与搜索引擎依靠特定策略和算法对用户提交的关键词进行搜索不同,作为解决信息超载问
多目标优化问题在现实生活中广泛存在,这些问题具有复杂度高,不易求解等特点,传统的数学方法难以对该类问题进行很好的求解。为解决这个问题,多目标进化算法被提出来并获得了广泛应用。多目标进化算法是启发式搜索算法中的一种,在处理多目标优化问题上,该类算法表现出了良好的鲁棒性和适用性。然而,随着目标个数的增加,这些多目标优化算法的有效性将逐渐地失效。原因是当目标数大于三个时,非支配解的数量将快速的占据整个种
多目标与超多目标优化问题广泛存在于现实世界当中,处理好这些问题具有重要的现实意义。然而,这些问题具有多个需要被同时优化且可能相互间存在冲突的目标函数,导致传统的数学方法很难进行处理。进化算法是一种基于种群的启发式算法,具有较强的搜索能力,能够解决很多传统方法无法解决的优化问题,已被广泛用于求解多目标与超多目标优化问题。近年来,为处理好超多目标优化问题,学术界提出了大量超多目标优化算法(Many-o
随着我国商品经济的飞速发展,人民精神需求水平日益提高,城市商业空间愈发受到公众关注。其中,动线系统和室外公共空间不仅是设计中的主要关注点和要素,更可作为整个商业建筑的点睛之笔和亮点所在,增添城市商业中心的活力。本文以环境行为学及消费心理学作为全文的理论铺垫和基础,以空间的合理性、流畅性、趣味性和活力性的分析视角来研究现当代商业综合体动线系统及外部公共空间的设计的现状情况,并以问卷调查和实地调研的研
在金融市场,股票预测一直是投资者和学术界的热门研究话题之一。随着经济全球化和股票市场的不断成熟,发展出了多种股票投资方式。近年来机器学习在多个研究领域取得了显著的成果,其中在股票预测方向除了传统的预测方法外,研究人员提出许多新的方法,并对已有的方法不断进行改进。例如利用深度学习预测股票中使用深度卷积网络、深度Q网络以及基于LSTM(长短期记忆网络)的深度循环神经网络预测股票。还有基于SVR(支持向