面向强化学习的规划优化方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:wfn031641lpp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习(reinforcement learning, RL)是一类重要的机器学习方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用。强化学习是一种从环境状态到动作映射的学习,并期望动作从环境中获得的累积奖赏最大。强化学习可分为两个基本的过程:学习过程与规划过程。学习是指Agent与环境直接交互的过程,并在此过程中利用获得的直接经验来更新值函数以改进策略。规划是指在环境模型中进行学习的过程,并在此过程中利用模型产生的模拟经验来更新值函数以改进策略。针对强化学习方法在处理大状态空间问题时候存在的“维数灾”及收敛速度慢等普遍的严重问题,本文从提升规划收敛性能的角度出发,分别针对模型已知和模型未知的强化学习任务提出了2种优化的强化学习算法,主要研究内容概括如下:(1)提出了一种基于拓扑序列更新的值迭代算法—VI-TS算法,以提升传统值迭代算法的收敛速度和稳定性。VI-TS算法通过构造任务模型的有向图,分解出有向图的强连通变量,依照拓扑序列计算强连通分量中状态的值函数,以实现整个任务的求解。分解后的状态空间维度降低了,且算法迭代扫描的次数大幅减少,使得规划效率显著提高。VI-TS算法使用启发式搜索剔除动作空间中的非优动作,使得算法具有普遍适用性。本文分析了VI-TS算法收敛性,并通过实验来检验算法的收敛性和适用性。(2)提出了一种基于优先级扫描的Dyna结构优化算法—Dyna-PS算法,以进一步提高传统Dyna结构的收敛速度和收敛精度。Dyna-PS算法在Dyna结构规划部分采用优先级扫描算法的思想,对优先级函数值高的状态优先更新,剔除了传统值迭代、策略迭代过程中不相关和无更新意义的状态更新,提升了规划的收敛效率,从而进一步提升了Dyna结构算法的性能。本文在理论上对Dyna-PS的收敛性进行了证明,且通过实验验证了Dyna-PS算法的性能并做了相关分析。
其他文献
随着我国科学技术的不断发展,在自媒体环境下,如何结合现有信息技术建立中职学生数学学习的新模式,从而提高学生数学学习质量.这首先需要提高教师的综合素养,不断更新教学内
2010年4月12日,我在讲课时提到了寄生植物菟丝子,当时学生问我还有其他的寄生植物吗?这个问题一下子难倒了我。课后,在好奇心的强烈驱使下,我和同事们查阅了很多资料,最后张
目的探讨人工髋关节置换术后康复护理的重要性。方法随机选取我院收治的18例人工髋关节置换术患者,通过术后心理疏导和人性化护理以及功能锻炼专业辅助指导,观察分析康复效果
<正>~~
期刊
摘 要:在小学阶段的数学教学过程当中,想要使学生的数学成绩和数学水平得到全面提升。教师不仅要全面加强基础知识教学,还必须要有效地将数学建模思想渗透到小学数学教学的每个阶段。这样不仅能够使学生更好地掌握具有较强逻辑性和严密性的数学知识,同时也能为小学数学的整体教学效率和教学质量的全面提升提供更好的保障。  關键词:小学;数学教学;数学建模思想  教师在进行数学教学之前,必须要对数学建模思想进行深入的
教师是人类桥梁的工程师,是祖国未来蓝图的设计者,这个职业是光荣而又神圣的.在科技飞速发展的今天,如何顺应时代的潮流,紧跟时代的步伐,在新课标的环境下,上好每一节课,让学
护士在医院中起着重要作用,对护生教学质量的重要性不言而喻.教师必须尝试通过各种教学方法提高教学的质量,努力实现教学改革并提高学生的学习效率,可结果往往不尽如人意.教
随着新课程标准的改革,开展素质教学已经受到越来越多的重视,小学数学教学能够为小学生的发展提供强有力的支撑.数学既是一门重要课程,也是一项重要的生活技能,与我们的生活
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
数学作为对于学生的综合思维能力以及理性思维探究有着深远积极影响,小学阶段作为诸多学生进行知识接触阶段的最前过程,对于学生之后的学习生涯以及后期个人发展有着极为深远