未来信息辅助的深度强化学习算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:gwwpw8775
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习在众多领域都取得了巨大的成功。目前,大多数深度强化学习方法都是基于历史信息进行规划,这类方法没有考虑到未来信息对决策过程可能起到指导的作用。此外,现有利用未来信息进行规划的方法,其通常的做法是建立环境模型,进而利用模型产生的数据训练规划算法,而现实中很难获取系统准确模型。为了将未来信息合理纳入规划过程,本文研究了如何利用未来信息辅助决策,主要工作与贡献分为以下两个方面:(1)现实环境往往是部分可观测的。现有的部分可观测环境下的规划算法通常使用POMDP,DRQN等方法。此类方法中信念状态表示均未用到未来信息部分。而未来信息中通常包含了辅助决策的相关信息。基于动作的对比预测编码算法将未来信息纳入到信念状态表示,使得状态表示能够包含全局状态的关键信息。但该算法仅将其作为状态表示,没有将其应用于部分可观测环境规划问题中。本文利用基于动作的对比预测编码算法表示信念状态,解决部分可观测环境规划问题,同时将下一步预测特征也作为决策依据辅助决策,提高了算法的规划效果,并通过实验说明了算法的有效性。(2)现有利用未来信息辅助决策的方法,例如deepmind提出的基于想象力算法,通过训练数据建立环境模型,再根据模型产生预测轨迹,预测轨迹结合无模型方法训练策略。但通常情况下,现实中获取环境准确模型十分困难,模型不准确会导致预测信息偏差,使得预测信息对规划有误导作用。考虑到当前状态过去可能经历过,从训练数据中抽取未来相关信息的方法变得可行。现有的利用训练数据中的未来信息辅助决策的方法,通常采用差分法查找对比,算法效率低。本文研究了如何快速从训练数据中找到未来相关信息以辅助决策。本文算法利用高斯随机投影的方式增加索引,快速搜索训练数据中过去相似状态,找到后续相关信息辅助决策,提高了算法效率的同时,避免了建模不准确带来的问题。
其他文献
工业革命之前,世界各地对于土地的使用大多都仅仅停留在土地表面。到了 19世纪中后期,随着科学技术的不断发展,地表资源的有限性迫使人们向空中和地下要空间,“土地分层利用”的概念也逐步被人类熟知,西方国家通过制定单行法、民法典或判例与其他法律形成了彼此联系却又相互独立的城市土地空间开发利用制度。而我国随着近年来火爆的地下空间开发市场,在立法上也越来越重视土地空间分层使用的研究。基于当下这种情况,本文的
学位
金属结构具有设计成熟、易于加工和成本低廉等优点,广泛应用在航空航天、土木桥隧和其他众多工业领域,是最为常见且最为重要的结构之一。不管是港珠澳跨海大桥、上海中心大厦、“奋斗着号”全海深载人潜水器还是C919大型客机和未来的中国空间站,都能看到它们的身影。长久以来,金属结构的疲劳、腐蚀、载荷和工作环境的变化一直是造成结构失效故障的主要因素,严重制约了金属结构的服役寿命。为保障结构安全可靠,恢复其承载能
学位
由步进电机组成的运动控制系统兼具成本与性能的优点,广泛应用于数控、医疗、纺织、包装等领域。但步进电机传统的控制方式存在转矩脉动、振荡、失步过冲等问题,难以应用于动态特性要求较高的场合。近年来,随着半导体器件与微处理器性能的提升,使得步进电机驱动控制器在小功耗、大功率驱动能力与处理复杂算法能力成为了可能。本文通过研究混合式步进电机运行过程中电流谐波的产生机理及其对电机的危害,提出混合式步进电机的空间
学位
随着互联信息技术的爆炸式发展,以云计算技术为代表的大数据技术逐渐开始成为时代的主流,全球掀起了数据信息热。美国在前几年抢先一步启动了“大数据研究和发展计划”,而我国不久也在“十三五”规划纲要明确提出了“国家大数据战略”,世界两大经济体不约而同的表达了对大数据的重视,足见其战略地位。现今时代,所有人无时无刻不在生产着大量的数据信息流,也各自享受着大数据带来的便捷红利,但不能忽略的是,人们也在不知不觉
学位
中国证券监督管理委员会成立即将30年,在推动市场法治建设、化解市场风险、维护市场秩序、促进市场发展等方面取得了显著成绩,在国际上享有了较高的声誉和地位。《证券法》历经三次修订,已基本满足了我们资本市场在新时代下发展需求,但证券监管体制的改革并未停下脚步。证券监管体制改革意味着需要调整证券监管机构的法律定位。研究监管机构的法律定位可从主体定位和职能定位两个重要方面进行分析。监管机构与其他政府机构的关
学位
私募基金作为风险偏好型的投融资方式,在一定程度上缓解了中小企业面临的融资难的困境。然而私募股权基金的高风险高收益的的特征,也决定了资本市场中没有永远的输赢,基金管理人作为基金资产的管理和运营方,基金管理人对资产的管理与运营决策直接影响了基金能够成功地实现预期的资产增益,实现投资目的,这也注定基金管理人在管理基金时的道德水平和业务能力会影响投资的走向与结果,而道德风险毫无疑问也成为了立法与实践难以把
学位
海洋面积十分广阔,约占地球表面积的71%,当我们提到海洋环境时往往想到的只是它的水体环境,其实真正的海洋环境还包括海域上空的大气环境、海底的生态环境以及毗邻海洋的陆地环境,由这些部分共同构成的海洋环境是人类经济社会持续健康发展所倚杖的重要生态基础,但是如此重要的海洋生态环境却在人类进入工业社会后开始出现环境污染的状况,尤其是在二十一世纪以来这种海洋环境污染的现象愈发严重,如2011年爆发的康菲(中
学位
自2007年在《物权法》中确定不动产预告登记制度以来,预告登记制度对维护不动产交易市场的稳定具有重要的作用。2019年,我国在《不动产登记暂行条例实施细则》中,对于预告登记进行了明确的规定,并明确规定了预告登记具有权利保全的效力。我国2020年颁布了《中华人民共和国民法典》简称《民法典》,此次修订的《民法典》在物权编中继续肯定了预告登记制度,对预告登记的法律条文进行了一些细微的修改,如将三个月的规
学位
我国作为用电大国,电力系统的相关产业技术都在国际上处于领先地位。目前,全国电力系统中电力屏柜的巡检却仍然采用人工的方式完成。人工巡检的方式对作业人员的身心素质、业务水平、技术经验等方面都有较高要求,因此也引入了许多不确定因素,而机器人巡检则可避免这些隐患,弥补人工巡检的不足,在提升作业效率与运维质量的同时增加安全性与经济效益。尤其是经过此次疫情,实现对电力屏柜无人值守的远程智能监管已经成为电力行业
学位
随着高通量测序技术的飞速发展,基因组碱基序列的规模快速增长,带来大规模数据下的序列存储与序列比较问题。直接利用动态规划针对序列进行比对,需要消耗巨大的时间空间计算资源。而免于配准的序列比较算法基于k-mer的相对频度,建立统计模型间的差异度度量尺度,但存储空间随着k值的增长指数级增加,而且基于固定的度量尺度衡量序列间差异限制了算法的泛化性和应用场景。因此,针对当前序列比较出现的两个问题:(1)包含
学位