【摘 要】
:
序列决策问题的求解能力是人工智能的核心要素之一,强化学习是一种序列决策问题的求解方法。无模型的强化学习算法在诸多应用中获得了显著的成果,但需要与环境进行大量交互以获取足够的数据进行策略的训练。而基于模型的强化学习算法通过利用无模型强化学习算法难以利用的低奖励数据,学习得到环境的动态模型,使策略使用模型模拟的数据,从而大大减少与真实环境所需的交互数。基于模型的强化学习由最优控制领域发展而来,原本用于
论文部分内容阅读
序列决策问题的求解能力是人工智能的核心要素之一,强化学习是一种序列决策问题的求解方法。无模型的强化学习算法在诸多应用中获得了显著的成果,但需要与环境进行大量交互以获取足够的数据进行策略的训练。而基于模型的强化学习算法通过利用无模型强化学习算法难以利用的低奖励数据,学习得到环境的动态模型,使策略使用模型模拟的数据,从而大大减少与真实环境所需的交互数。基于模型的强化学习由最优控制领域发展而来,原本用于解决完全已知模型的情况下的序列决策问题,最优控制相关的算法通常无需或仅需少量交互即可得到最优策略。使用模型还能提高算法在更多场景的适应能力和扩展能力,模型的预测能力也体现了人类智能中预测和规划的智能模式。但是在复杂的环境中,学习的模型无法避免较高的预测误差的问题,从而导致算法性能比相应的无模型方法差。本文分析了模型误差对强化学习算法性能的影响,并提出了一种优化模型本身的方法,称为目标导向模型。该方法使用Dyna框架实例化的算法在众多主流的强化学习标准测试环境中取得了优于最前沿无模型和有模型强化学习算法的成绩。目标导向模型使用无模型算法提供的状态价值信息计算该状态的时间差分误差,用于表示场景的重要程度,模型训练使用基于该时间差分误差的优先经验重放训练方法,将场景的重要程度引入模型训练。与基本的Dyna算法框架结合,本文设计了基于目标导向模型的强化学习算法。优化训练的模型用于生成模拟的与真实环境交互的经验,无模型算法使用真实经验和模拟经验共同训练,以此减少对真实环境的交互的需求。本文在一系列Mu Jo Co的控制基准任务上对目标导向模型方法进行了实验和分析。实验表明通过对模型训练方式的调整,本文的方法可以降低使用模型的预测误差问题,并在长期预测中保持了稳定而较高的性能。本文的方法能显著提高无模型强化学习算法的采样效率。本文的方法很容易扩展到现有最前沿的显式估计状态价值或状态动作价值的无模型和有模型强化学习算法中。
其他文献
在信息爆炸的时代背景下,大量重复冗余的信息充斥人们的生活,如何从众多无结构或半结构的信息里提取出高质量且精准的信息是信息抽取任务快速发展的原因之一。信息抽取在问答系统、数字图书馆等任务中都有广泛应用,实体关系抽取是其重要的子任务之一。传统和基于深度学习的实体关系抽取方法已经在实际应用中取得了较高的准确率,但其主要集中在特定领域,在面对不容易获得大规模监督训练数据集的实体关系抽取任务时,传统方法逐渐
软件缺陷预测是一种以提高软件质量为目的通过预先识别可疑缺陷模块为软件测试资源分配提供决策支持的技术。但是软件缺陷预测模型的性能取决于所考虑的软件特征的质量。冗余和不相关特征可能会降低模型的性能,这就需要特征选择方法来识别和移除这类特征。本文针对软件缺陷预测中的特征选择进行深入研究,主要研究工作如下:(1)本文将软件缺陷预测特征选择问题转化为多目标优化问题。结合特征工程的实际意义,在综合分析模型运行
临床病历文本中所包含的信息资源极其丰富,却因其规范化程度有限而导致信息无法被有效地提取和利用。病人以往的病情、诊断和治疗记录,对辅助医生做出更好的医学决策具有重要意义。本文的研究任务是对中医临床病历文本进行事件抽取,以事件为单元对病人的病情发展进行呈现,同时抽取出每个事件的发生时间。事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化表达方式呈现给用户。经过研究发现,不管是在研究任务上
由于各种不确定性和不可抗力的存在,导致众多产品的制造生产过程存在着很多风险源,这些风险源的存在会对产品的稳定性乃至项目的成败产生直接的影响。光纤传感器是以光纤为介质研发的一类传感产品,其理论技术的不断进步依托于光纤通信技术的飞速发展。对于光纤传感产品而言,其产品性能的优劣不仅取决于先进的理论算法,更取决于产品在制造过程中的各个工序的管控。分析产品生产环节存在的各种风险源并加以控制,可以降低设备故障
如今,在线社交网络已经成为我们日常信息传播的重要载体和渠道,有关社交网络的研究,对人类社会发展和商业推广等方面都有着实际的应用价值。社交网络应用分析的一个重要问题是对用户进行排名。现有的社交网络用户排名算法主要分为基于中心性的方法,基于超链接引导主题搜索算法以及基于PageRank算法。传统的排名算法无论是加权的还是未加权的,仅使用基于边的关系,一些排名算法考虑到结点参与的高阶结构,通过模式去获取
并联机构具有精度高、承载能力大、位置反解简单等优点,特别是以Stewart平台并联机构为主的六自由度并联机构,研究应用广泛。但Stewart平台并联机构其本身存在一些不足,而且目前对于其他构型结构的六自由度并联机构研究匮乏。本文基于以上背景,提出了一种具有闭环支链的新型六自由度并联机构,用于运动模拟平台。论文对此新型并联机构进行了相应的理论分析和虚拟仿真,并结合人体体感模型运动阀值,优化了仿真运动
近年来,无人机因为其高性价比,机动性强,灵活操作等优点,在各个领域得到了应用。特别是通信领域中,由于无人机可以与地面用户建立良好的视距链路(Line of Sight,Lo S),从而提升数据传输效率,同时无人机可以搭载雾服务器完成计算任务,还可以安装射频信号发射器为设备充电。但是,在用户相关信息(如用户位置、发射功率)动态变化的情况下,对能量有限的无人机的飞行轨迹进行设计以最大化系统网络容量,存
以敦煌莫高窟为代表的中国古代壁画有着悠久的历史和极高的文化价值。然而,随着岁月的变迁,古代壁画不可避免地由于风沙、潮湿或人为盗取等因素遭到损害。因此,及时地对已发现的受损壁画进行修复能够最大程度地保留其经济和文化价值。传统的人工修复不仅对修复专家具有更高的技术要求,且一旦操作不当会有损伤壁画的可能性。因此,对损伤壁画进行数字化修复不仅能避免对壁画本体因人为失误而造成损坏,更能使完整的壁画数字图像易
随着人工智能的快速发展,深度学习技术在物联网行业的应用不断繁荣起来。SAR卫星图像检测,行人检测,自动驾驶等等的应用层出不穷。为了适应高准确率的检测效果目标检测网络的层数被设计的越来越深,与此同时带来的计算量也变得大了起来。我们知道目标检测算法从开始的设计到实际部署每一环都是至关重要的,不仅仅是以计算量的大幅度增加为代价来提高检测的准确度,还要顾及到目标检测算法部署到实际生活场景中的所遇到的困难。
单闭链移动机器人结构简单,在应用过程中具有外形轻巧,便于携带,易于驱动等优良性能,广泛应用于复杂的地形环境。本文结合四边形移动机构和连杆式滚动机构的性能特点,提出了两款可转向四边形滚动连杆机构,并围绕两款机构进行了设计研究、理论分析、运动仿真、样机制作、实验测试等。首先,提出一种基于U型副的4U四边形滚动连杆机构,该机构可以实现向任意方向行进。规划了4U四边形滚动连杆机构直行和转向两种滚动运动方式