搜索筛选:
搜索耗时0.5013秒,为你在为你在102,267,441篇论文里面共找到 1,000 篇相符的论文内容
类      型:
[学位论文] 作者:郁丽萍,, 来源:电子科技大学 年份:2020
强化学习从属于机器学习领域并且是一个重点研究方向,一般用来处理序贯决策问题。其主要应用于众多带有交互性和决策性的问题,这些问题是常用的监督学习和非监督学习方法无法很好处理的。...通俗的讲,强化学习就是让智能体连续的同外部环境交互学习,进而完成某个所期望目标的一种模拟人类的学习方法。...由于强化学习存在“维数灾难”这一未攻克的难题,分层强化学习领域引入了抽象机制来尽可能的减轻该问题带来的影响。但例如Opti...
[期刊论文] 作者:周婉, 姚溪子, 肖雨薇, 刘艳芳, 来源:信息与电脑(理论版) 年份:2020
随着机器学习的发展,深度强化学习凭借着能够对大规模输入进行自主探索试错从而学习到最优策略的优势成为研究热点。然而,传统的强化学习在针对复杂的决策任务时面临着维度灾难,并且无法解决稀疏奖励问题。...文章提出一种融合Manager-Worker层次结构与强化学习经典算法深度Q网络(DeepQNetwork,DQN)的分层强化学习算法,在雅达利游戏环境中训练,使智能体能够在“环境-动作-反馈”中学习最优策略...
[学位论文] 作者:黄蓉, 来源:山东师范大学 年份:2020
强化学习包括奖赏学习与惩罚学习两种方式,在强化学习过程中,人需要及时利用外部反馈来监控和修正行为,反馈包括奖赏反馈与惩罚反馈两种类型。...以往研究发现抑郁症患者的奖惩加工和强化学习行为存在异常,但是对与抑郁症密切相关的抑郁倾向群体的研究尚不明确,而且奖惩加工与强化学习的关系有待进一步探讨。...本研究通过行为和脑电实验来研究抑郁倾向群体中的奖惩加工与奖惩学习行为是否存在异常,以及奖惩加工和强化学习行为之间的...
[期刊论文] 作者:张新艳,郭鹏,余建波, 来源:哈尔滨工业大学学报 年份:2020
为改善板料拉深制造的成品质量,采用深度强化学习的方法进行拉深过程的压边力优化控制.提出一种基于深度强化学习与有限元仿真集成的压边力控制模型,结合深度神经网络的感知...
[学位论文] 作者:詹亮,, 来源:电子科技大学 年份:2020
强化学习在可交互的环境当中通过试错进行学习,其与深度学习相结合形成了深度强化学习。现阶段,深度强化学习已经被应用在了机器人学、视频游戏、金融等领域。...经验池(Replay Buffer)在很多深度强化学习算法当中被应用。因为计算机硬件的原因,经验池都会具有预算空间大小的限制。当预...
[期刊论文] 作者:朱霸坤, 朱卫纲, 李伟, 杨莹, 高天昊, 来源:电光与控制 年份:2020
强化学习作为人工智能领域炙手可热的技术手段,具备不依赖先验数据的自学习能力,是解决多功能雷达干扰难题的一个重要途径。...本文在回顾传统的雷达干扰决策算法的基础上,阐述了利用强化学习进行雷达干扰决策的原理,分析了基于强化学习的雷达干扰决策技术的发展现状,并通过仿真分析了基于强化学习的干扰决策方法的性能,最后进...
[学位论文] 作者:张浩天, 来源:浙江大学 年份:2020
近年来,人们在强化学习领域的研究已经取得了令人瞩目的成就。然而在场景较为复杂时,传统的强化学习算法面临维度灾难以及长期信度分配问题,往往难以取得很好的效果,这限制了其实际应用。  ...分层强化学习利用分而治之的思想,通过对复杂问题进行分层抽象,能够缓解传统强化学习算法中所存在的维度灾难以及长期信度分配问题,为建立大规模的强化学习系统带来了希望。  ...然而在现有的分层强化学习算法中仍然普遍存在着以下问题:(1)由于层次强化学习中各层次策略彼此耦合,值函数估计中存在的过估计问题、算法中存在的采样低效...
[期刊论文] 作者:李波, 黄晶益, 万开方, 宋超, 来源:战术导弹技术 年份:2020
深度强化学习是人工智能领域的研究热点,利用深度学习的感知能力与强化学习的决策能力,实现从输入到输出的端对端控制。...为研究基于深度强化学习的无人机应用发展现状并分析其发展趋势,对近几年来国内外关于深度强化学习的无人机应用进行了总结与回顾。...介绍了深度强化学习基本原理及在无人机系统应用上的发展历程,从基于深度强化学习算法的多无人机协同、无人机避障与路径规划、无人机目标搜索与跟踪、无人机空战决策与控制设计、...
[学位论文] 作者:时圣苗,, 来源:苏州大学 年份:2020
深度强化学习方法将深度学习与强化学习相结合,目前已在多种复杂决策任务的处理中展现出了强大的通用性并取得了突破性的进展。利用深度神经网络构建网络模型并根据强化学习...
[期刊论文] 作者:徐浩添, 秦龙, 曾俊杰, 胡越, 张琪, 来源:系统仿真学报 年份:2020
深度强化学习是一种兼具深度学习特征提取能力和强化学习序列决策能力的智能体建模方法,能够弥补传统对手建模方法存在的非平稳性适应差、特征选取复杂、状态空间表示能力不足等问题。...本文首先将基于深度强化学习的对手建模方法分为显式建模和隐式建模两类,按照类别梳理相应的理论、模型、算法以及适用场景。...随后介绍基于深度强化学习的对手建模技术在不同领域的应用情况,最后总结亟需解决的关键问题以及发展方向,旨在为基于深度...
[学位论文] 作者:王州, 来源:厦门大学 年份:2020
强化学习中回报函数设计至关重要,不好的回报函数设计会导致强化学习算法收敛不稳定甚至失败。本论文以强化学习中的回报函数为研究对象,分析传统强化学习方法中回报函数的设计对训练效果影响的问题。...
[期刊论文] 作者:吴志鹏,董超俊,, 来源:现代计算机 年份:2020
深度强化学习是近年来兴起的一种多层结构的神经网络与具有决策能力的强化学习相结合的一种算法,通过端对端的学习方式来直接控制输入和输出。从提出此方法至今,深度强化学习已经有了实质性的突破。但是仍然有不...
[期刊论文] 作者:安靖, 司光亚, 张雷, 来源:系统仿真学报 年份:2020
基于深度强化学习算法在策略优化问题中的良好表现,以立体投送作战行动为主要研究对象,提出了一种深度强化学习框架与仿真推演实验协同的作战行动策略优化方法。...在分析策略优化研究现状的基础上,根据研究问题对深度学习框架进行了分析比较,构建了基于A3C算法的深度强化学习立体投送策略模型,并通过仿真推演和分布式计算,实现深度强化学习模型与“人不在回路”仿真推演的交互学习...
[学位论文] 作者:李文浩, 来源:华东师范大学 年份:2020
多智能体强化学习作为强化学习、控制论、博弈论、深度学习以及社会心理学的交叉领域,近年来在求解复杂合作任务上取得了令人瞩目的成绩。在多智能体强化学习中,智能体外部环...
[学位论文] 作者:赵晨萧,, 来源:华东师范大学 年份:2020
强化学习以马尔可夫决策过程为基础,普遍适用于各类序列决策与规划问题的建模,因此在机器学习研究中受到了越来越多的关注,并部署应用在一些现实世界场景中。...然而,大量研究证据表明,通过强化学习训练得到的模型在面对不同的环境动态时缺乏足够的泛化能力:当训练环境包含一定的随机性时,强化学习模型在该环境中的表现往往具有很高的方差;当测试环境与训练环境存在微小差异时...,在训练环境上表现良好的强化学习模型反而在测试环...
[期刊论文] 作者:张启阳, 陈希亮, 曹雷, 赖俊, 盛蕾, 来源:计算机科学 年份:2020
深度强化学习是人工智能研究中的热点问题,随着研究的深入,其中的短板也逐渐暴露出来,如数据利用率低、泛化能力弱、探索困难、缺乏推理和表征能力等,这些问题极大地制约着深度强化学习方法在现实问题中的应用。...知识迁移是解决此问题的非常有效的方法,文中从深度强化学习的视角探讨了如何使用知识迁移加速智能体训练和跨领域迁移过程,对深度强化学习中知识的存在形式及作用方式进行了分析,并按照强化学习的基本构成要素对深度...
[学位论文] 作者:黄思宇,, 来源:华中科技大学 年份:2020
深度强化学习作为最具代表性的人工智能算法之一,其核心在于结合了深度神经网络强大的特征提取能力与强化学习的探索试错能力,其中强化学习在探索中提供样本及对应的监督值给神经网络;神经网络学习样本后进而为强化学习的探索提供引导...深度强化学习为智能体自主学习提供了一个通用的框架,从而使得智能体端到端的学习成为可能。围捕逃逸问题由于其包含智能体间合作及对抗的特点,一直是多智能体领域的经典问题。在多智能体问题中...
[学位论文] 作者:靳晓晗,, 来源:中国科学院大学(中国科学院大学工程科学学院) 年份:2020
人们普遍认为,深度强化学习是提高无线网络性能的一个很有前途的方式。然而,现有的关于无线网络和深度强化学习的研究大多是独立进行的,无法充分利用强化学习技术的学习能力来自适应地优化网络路由。...这极大地限制了深度强化学习技术改善无线网络性能的潜力。为了体现深度强化学习技术在无线系统中的优...
[期刊论文] 作者:崔文华,李东,唐宇波,柳少军, 来源:国防科技 年份:2020
针对兵棋推演的自动对抗问题,文章提出基于深度学习网络和强化学习模型来构建对抗策略。文章结合深度强化学习技术优势,立足多源层次化的战场态势描述,提出面向智能博弈的战...
[期刊论文] 作者:叶伟杰,高军礼,蒋丰,郭靖, 来源:广东工业大学学报 年份:2020
强化学习与深度学习结合的深度强化学习(Deep Reinforcement Learning,DRL)模型,目前被广泛应用于机器人控制领域。机器人强化学习需要在3D仿真环境中训练模型,然而在缺乏环...
相关搜索: