面向连续空间的模糊再励学习方法的研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:zhouxiaoqing1003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
再励学习方法一般只能接受离散化的状态输入,给出离散值的控制输出.但是,学习智能体所处的环境通常是空间连续的,对连续的状态空间和动作空间进行离散化,会导致维数灾问题.该文利用模糊逻辑研究再励学习的连续空间问题,使学习智能体能够感知连续的状态输入,产生实值的控制动作.文中提出了四种新的学习结构:模糊优胜学习、竞争式Takagi-Sugeno模糊再励学习、遗传式Takagi-Sugeno模糊再励学习,以及面向语言评价的Takagi-Sugeno模糊再励学习.这些学习方法具有双重功能,即既适用于完成连续域的复杂学习任务,又可在线设计和调节模糊逻辑控制器的后件参数.为了提高学习速度,该文利用优胜学习和后件为单点集的模糊推理系统,设计了模糊优胜学习的结构,并将其成功地应用于一阶倒立摆控制问题.仿真研究揭示了模糊优胜学习的参数特性,并且表明:该方法学习速度快,鲁棒性强,学习性能优于其它相关再励学习方法.
其他文献
该文首先探讨了全文检索技术发展和概况,简单介绍了日益成熟的全文检索技术以及对于 中文全文检索还需要解决的问题.然后介绍了科学数据库及其信息系统的优点、不足和改进的
UNIX是当前世界上使用普遍,影响深远的主流操作系统。它具有很高的可靠性、稳定性、安全性。在我国,大部分关键性的业务都是运行在UNIX平台上的,它与我们的日常生活息息相关。另
分布式对象计算技术理论因其优越性得到了广泛的发展,日趋成熟。其主流技术CORBA是一个分布式的面向对象应用架构规范,在90年代逐步完善,形成现在被软件行业普遍认可的标准—COR
通过S-Firewall系统的开发和对客户实际使用过程中反馈信息的深入分析,作者提出了基于任务流程的Web访问控制模式,主要针对诸如企业电子商务这样功能明确的集中式信息系统,为
时间是现实世界中一个重要的因素,真实的事件无一不打上时间的烙印:任 何事件总是在某个时间点上发生的。另一方面,对象以及各对象之间的关系也 是在一定时间内存在的
专家系统是人工智能应用研究最活跃和最广泛的领域之一.目前已应用到各个专业领域.PPCES(Production Plan and Control Expert System)原型系统是针对单件小批量生产的特点为改
随着互联网技术的不断发展,尤其是移动互联网的快速兴起,使得网络接入用户数量急剧增加,这给互联网中心服务器造成了巨大的性能压力,为了应对这个问题,采用多台应用服务器组
当前国内操作系统教学普遍缺乏能够真正用于实践的平台,针对这种现状,本课题设计并实现了一个基于微内核的、面向对象的教学用操作系统---Pagoda。一个优秀的面向教学用操作系
该文围绕特定的软件构架模式、描述语言、辅助支持工具和基于构件-构架的应用工程框架等方面开展了研究,主要包括以下内容:1.提出了基于层次消息总线的构架模式JB/HMB.2.设计
随着多跳无线传感器网络不断应用到实际环境下,网络数据如何有效及时的传输成为了人们关注的热点问题。所以近年来对无线传感器网络的研究主要集中在路由协议上。无线传感器