Q-learning强化学习算法的改进及其在无人车路径规划中的应用

来源 :东北大学 | 被引量 : 0次 | 上传用户:tshanyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,无人车已逐渐成为人工智能领域的一个热门分支,无人车的路径规划更是必不可少的部分。本文将无人车路径规划和强化学习方法结合起来,实现无人车能够在未知环境中学习当前环境,找到到达终点的最优路径。使用强化学习方法省去了对复杂任务或者模型未知任务建模的过程,通过学习的方法来得到解决问题的最优策略。由于无人车使用普通强化学习算法如Q-learning算法不能适应动态环境,即当环境发生改变时,无人车需要重新学习当前环境。即使环境只是发生微小变化,无人车都需要像对待新环境一样重新学习。因此对强化学习算法的改进使之能够适应变化环境的研究就变得具有重要的实际意义。首先,本文提出一个种对环境的分层方法,并将分层的思想用到强化学习探索算法epsilon greedy上,提出一种分层探索的算法,即分层epsilon greedy探索算法。在此算法中把一个复杂环境分成多个抽象层次,从非常详细的底层到抽象表达的高层,Agent在底层环境学习详细的规划路径,而高层则进行对环境进行抽象表达。对环境进行分层之后,高层保留了对环境的抽象,当环境发生改变后,由于高层环境受到的影响比较小,因此能够指导Agent在改变之后在环境中学习,提高了无人车学习效率。其次,将分层epsilon greedy探索算法应用到Q-learning算法中,得到一种新的Q-learning算法,即基于分层epsilon greedy探索的Q-learning算法。鉴于强化学习的核心在于Agent的动作选择策略,本算法在各个分层环境采用分层epsilon greedy探索算法来选择动作,从环境整体的角度来指导Agent选择动作。此算法不但保留了Q-learning算法的优秀的学习能力,同时采用分层探索的方法提高了该算法的收敛速度和环境适应性。最后将基于分层epsilon greedy的Q-learning算法用到无人车路径规划中,并从学习速度和环境适应性两个方面来比较基于分层epsilon greedy的Q-learning算法和Q-learning算法。数据结果表明,采用了基于分层epsilon greedy的Q-learning算法的无人车学习速度和环境适应性得到较大的提升。
其他文献
随着我国高等教育迈入普及化阶段,在规模得到扩张的同时带来了高等教育质量危机,提高高等教育质量己经成为了时代的主题。高等教育质量评估重点已经从大学的声誉和资源等外部因素转向大学生学习和发展,大学生自我报告的学习收获成为了高等教育质量评估的核心内容。因此,揭示高校大学生的学习收获现状,深入探讨大学生学习收获的影响路径,是一个关系到提升高等教育质量的重要环节,也是高等教育研究的重点内容。本研究以J大学的
企业投资项目审批制度是指项目开工前、竣工后,从开工前审批到验收通过的全过程,审批环节多、耗时长、成本高。黄岩区积极推行投资项目审批流程优化,促进项目早审批、早开工、早投产,优化区域营商环境,提升企业和群众获得感。
能源危机、环境污染推动了新型能源技术的研究与开发,发展清洁能源技术成为全世界科学家关注的科学问题。燃料电池、金属-空气电池作为高效、环保的新能源技术,它们的发展离不开高效、低廉的阴极催化剂。目前,贵金属铂(Pt)是阴极氧还原反应(ORR)最主要的催化剂,但其丰度低、成本高、易中毒严重限制了该催化剂大规模商业化应用。本论文通过引入其它廉价金属与Pt形成合金来降低催化剂成本,进而调控催化剂的几何结构与
随着社会对环境保护以及自然资源合理利用的重视,分布式电源(Distributed Generation,DG)接入系统已经成为一种趋势,并得到了蓬勃发展。为了解决分布式电源接入大电网的安全可靠性问题,从而更好地发挥分布式电源的优势,由分布式电源、负荷、储能装置及控制装置组成的微电网(Micro Grid,MG)代替分布式电源接入配电网成为新能源并网的新趋势。并且随着社会能源需求的增加以及微电网技术
文章具体研究了Y电商公司,通过分析识别出该公司存在负债偿还难的筹资风险,再对该风险成因进行分析,根据不同原因引发的筹资风险有针对性地采取风险控制措施,并提出几点建议。针对筹资方式不当的问题提出了“优化筹资方式,增强筹资能力”的建议,针对营运能力不强的问题提出了“完善存货环节管理、加快建仓更新仓库”的建议,针对盈利能力的改善提出了“立足主业提高产品盈利性”的建议。
油菜花叶病毒(Oil-Seed Mosaic Virus;ORMV/Youcai mosaic virus;Yo MV)是一种棒状单体基因组病毒,属单链核糖核酸,烟草花叶病毒属的一种,能够侵染油菜等十字花科作物。其结构基因含有至少四个开放阅读框,可以编码四种蛋白质,其中表达的125KDa复制酶蛋白(P125)不仅是油菜花叶病毒引起植物花叶病的一种致病蛋白,同时该蛋白也是一种可以抑制基因沉默的抑制因
实验背景和意义:肾上腺髓质素(Adrenomedullin,AM)是一种活性多肽,由五十二个氨基酸序列组成,是降钙素基因相关肽(CGRP)家族成员之一,主要的生理作用是舒张血管,降低血压。在最近几年中它被证明可以参与疼痛的发生,是一种与疼痛有相的神经多肽。本研究在课题组前期积累上提出AM能激活星形胶质细胞这一假设。为了验证其准确性,我们通过离体培养大鼠星形胶质细胞,在此基础上探讨AM在正常状态中和
Al-Mg-Si系铝合金密度低、耐蚀性好、阳极氧化性能优良、成形性好,具有良好的综合机械性能,成为手机外壳的首选金属材料。本文在Al-0.9Mg-0.6Si合金基础上,通过Cu含量、Zn含量和Cu+Zn组合含量变化,采用金相显微镜、扫描电镜(SEM)、能谱分析(EDS)、透射电镜(TEM)、拉伸试验、硬度试验、扫描量热分析(DSC)、腐蚀试验和电化学实验等方法,系统研究了合金元素对显微组织、力学性
随着智能电网技术的不断发展与智能用电理念的逐渐传播,人们普遍开始重视能源管理、节能减排以及可再生能源等问题。先进且有效的需求侧管理技术能够为智能电网发展提供安全性与与可靠性的保障,而了解居民用电行为特征是实现需求侧管理的首要前提。非侵入负荷辨识相较于其他负荷辨识方式而言,信息采集更简单,成本投入低,可操作性强,维护方便并且居民的接受程度高,因此近年来逐渐被国内外的学者所重视。通过非侵入式负荷辨识可