基于神经网络的强化学习函数估计方法的研究与应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:listandmap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法。本文主要研究连续状态空间下的强化学习问题,并将神经网络应用于强化学习技术中,用来估计状态-值函数。 本文的主要研究工作及成果体现在如下几点: 1.分析强化学习中的连续状态空间问题,介绍当前使用的几种解决连续状态空间强化学习问题的方法,并指出使用神经网络进行函数估计来处理连续状态问题的优势。 2.使用神经网络作为函数逼近器的连续状态强化学习研究 分别设计基于BP、CMAC以及Fuzzy ARTMAP三种神经网络的连续状态强化学习算法。 提出基于BP的半增量训练模式,以及学习率优化方法;引入Fuzzy ARTMAP处理强化学习函数估计问题,提出基于Fuzzy ARTMAP的强化学习函数估计(RLFA)模型。在Mountain-Car环境中试验以上三种方法,并分析三种方法的优缺点。 3.将以CMAC网络为函数逼近器的强化学习算法应用于电梯群控系统中。在下行高峰模式下进行实验,实验表明强化学习能有效地减少乘客等待时间,提高电梯调度的性能,并相比基于BP网络的算法具有更优的性能。
其他文献
随着分布式数据库系统的广泛应用,如何以最小的开销保证数据库系统中数据各冗余副本之间的一致性,成为该领域的一个研究热点。尤其在异构或异质的环境中,这一问题显得更加复
分层次教学是现代中等职业教育教学改革的热点,其中心思想是将对某门课不同学习能力的学生分成几个层次(组),每个层次代表不同的学习能力,每个层次中的学生学习能力相似。针对每
随着信息系统的复杂化和网络互联技术的广泛应用,信息系统的安全问题日益突出,各种网络和信息系统的安全越来越依赖于防火墙、入侵检测系统等安全应用软件和产品的保护。这些安
在目前的 WEB 系统中,用户界面是指计算机与其使用者之间的对话接口,是 WEB 系统的重要组成部分,它直接关系到整个计算机系统的可用性和使用效率。目前开发用户界面的工作量
因特网是一个巨大的全球性的信息服务中心。传统的媒体受到冲击,逐渐向网络媒体转变,提供网络信息服务的竞争日益激烈。目前的网络新闻服务站点基本上是基于B/S结构的单一的
在控制理论和技术飞速发展的今天,PID控制由于其具有控制方法简单、易于实现和现场调试等优点,被广泛应用于工业过程控制。在实际过程中,被控过程都是非线性的且具有时变不确
  本文在基于RTLinux开放式数控系统研发的课题背景下,对数控系统中控制器软件的一个重要模块——数控代码解释器进行了研究与分析。文章根据具体任务课题,研究了基于RS274/N
形式概念分析(Formal Concept Analysis)这一新兴的数据挖掘理论,是由德国学者Wille提出的。形式概念分析的思想主要来源于哲学,在哲学中,概念是由外延和内涵两部分组成的思
随着数据库应用的不断深化,越来越多的数据被贮存到了计算机中,但是数据库管理系统却没有提供有效的工具和方法来利用这些数据,因此充分利用数据进行决策支持成为当今最需要深入
形式化验证方法主要包括定理证明和模型检验,其中模型检验因其自动化高得到重视,并已经在硬件领域和通讯协议的分析与验证中取得了巨大成功。近几年来,软件模型检验成为研究