基于神经网络的强化学习函数估计方法的研究与应用

来源 :南京大学 | 被引量 : 0次 | 上传用户：listandmap

【摘要】

：

强化学习是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法。本文主要研究连续状态空间下的强化学习问题，并将神经网络应用于强化学习技术中，用来估计状态－值函数。

【作者】

：

王冬黎

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2005年期

【关键词】

：

神经网络强化学习函数估计机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法。本文主要研究连续状态空间下的强化学习问题，并将神经网络应用于强化学习技术中，用来估计状态－值函数。本文的主要研究工作及成果体现在如下几点： 1．分析强化学习中的连续状态空间问题，介绍当前使用的几种解决连续状态空间强化学习问题的方法，并指出使用神经网络进行函数估计来处理连续状态问题的优势。 2．使用神经网络作为函数逼近器的连续状态强化学习研究分别设计基于BP、CMAC以及Fuzzy ARTMAP三种神经网络的连续状态强化学习算法。提出基于BP的半增量训练模式，以及学习率优化方法；引入Fuzzy ARTMAP处理强化学习函数估计问题，提出基于Fuzzy ARTMAP的强化学习函数估计（RLFA）模型。在Mountain-Car环境中试验以上三种方法，并分析三种方法的优缺点。 3．将以CMAC网络为函数逼近器的强化学习算法应用于电梯群控系统中。在下行高峰模式下进行实验，实验表明强化学习能有效地减少乘客等待时间，提高电梯调度的性能，并相比基于BP网络的算法具有更优的性能。

其他文献

基于Web组件的分布式数据库一致性机制的研究与实现

随着分布式数据库系统的广泛应用,如何以最小的开销保证数据库系统中数据各冗余副本之间的一致性,成为该领域的一个研究热点。尤其在异构或异质的环境中,这一问题显得更加复

学位

数据一致性Web 组件事务目录

基于加权距离的聚类分析在分层次教学中的应用研究

分层次教学是现代中等职业教育教学改革的热点，其中心思想是将对某门课不同学习能力的学生分成几个层次(组)，每个层次代表不同的学习能力，每个层次中的学生学习能力相似。针对每

学位

加权距离聚类分析分层次教学数据挖掘关联规则挖掘中等职业教育

计算机安全产品的自身安全保障技术的研究

随着信息系统的复杂化和网络互联技术的广泛应用，信息系统的安全问题日益突出，各种网络和信息系统的安全越来越依赖于防火墙、入侵检测系统等安全应用软件和产品的保护。这些安

学位

网络安全保障机制操作系统应用软件安全模型

基于元模型的WEB用户界面研究

在目前的 WEB 系统中,用户界面是指计算机与其使用者之间的对话接口,是 WEB 系统的重要组成部分,它直接关系到整个计算机系统的可用性和使用效率。目前开发用户界面的工作量

学位

元模型WEB 用户界面所见及所得个性化动态 WEB系统

基于Web Services的新闻服务系统

因特网是一个巨大的全球性的信息服务中心。传统的媒体受到冲击,逐渐向网络媒体转变,提供网络信息服务的竞争日益激烈。目前的网络新闻服务站点基本上是基于B/S结构的单一的

学位

Web ServicesXML注册中心Axis新闻服务体系

基于FPGA的模糊PID控制器研究与实现

在控制理论和技术飞速发展的今天,PID控制由于其具有控制方法简单、易于实现和现场调试等优点,被广泛应用于工业过程控制。在实际过程中,被控过程都是非线性的且具有时变不确

学位

模糊PID控制器现场可编程门阵列VHDL描述仿真分析

基于RS274/NGC语言的数控代码解释器的规范化设计与库的实现

　　本文在基于RTLinux开放式数控系统研发的课题背景下，对数控系统中控制器软件的一个重要模块——数控代码解释器进行了研究与分析。文章根据具体任务课题，研究了基于RS274/N

学位

数控机床数控系统解释器加工函数

形式背景上的建格与规则提取算法研究

形式概念分析(Formal Concept Analysis)这一新兴的数据挖掘理论,是由德国学者Wille提出的。形式概念分析的思想主要来源于哲学,在哲学中,概念是由外延和内涵两部分组成的思

学位

形式概念分析概念格渐进式算法内涵缩减蕴涵规则

模糊状态时间序列数据挖掘研究

随着数据库应用的不断深化，越来越多的数据被贮存到了计算机中，但是数据库管理系统却没有提供有效的工具和方法来利用这些数据，因此充分利用数据进行决策支持成为当今最需要深入

学位

数据挖掘时间序列模糊理论数据库管理系统计算机应用

软件模型检验中谓词抽象技术研究

形式化验证方法主要包括定理证明和模型检验,其中模型检验因其自动化高得到重视,并已经在硬件领域和通讯协议的分析与验证中取得了巨大成功。近几年来,软件模型检验成为研究

学位

软件系统模型检验状态空间爆炸谓词抽象技术

基于神经网络的强化学习函数估计方法的研究与应用

与本文相关的学术论文