基于支持向量技术的Agent强化学习研究与应用

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：zengbiao2010

【摘要】

：

支持向量机(SVM)是基于统计学习理论的一种机器学习方法，它具有全局最优解和良好的泛化性能等优点。强化学习是一种无监督的机器学习技术，能够利用不确定的环境下Agent所获得的

【作者】

：

刘扬

【机构】

：

合肥工业大学

【出处】

：

合肥工业大学

【发表日期】

：

2007年期

【关键词】

：

多Agent系统 RoboCup 支持向量强化学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

支持向量机(SVM)是基于统计学习理论的一种机器学习方法，它具有全局最优解和良好的泛化性能等优点。强化学习是一种无监督的机器学习技术，能够利用不确定的环境下Agent所获得的奖赏来发现最优的行为序列，因此被广泛用于Agent的智能决策。但标准的强化学习算法不能适用于连续状态空间和动作空间的学习。本文针对RoboCup中的具体问题，一方面通过支持向量回归方法来解决RoboCup中球员截球问题，一方面在强化学习中引入支持向量分类技术来解决强化学习中连续状态表示问题，使其适用于RoboCup复杂环境下的Agent智能决策。本文的主要研究工作如下：(1)针对RoboCup中截球问题引入了支持向量回归方法，它通过采集样本训练预测模型来预测agent成功截到球时球运动过的距离。为了达到更好的预测效果，对此模型的参数选择问题进行了相应的研究。最后将此预测模型与广义回归神经网络等传统方法相比较，结果表明在截球距离的预测精度方面要优于传统的广义回归神经网络。(2)针对RoboCup中强化学习的连续状态表示问题，提出一种新的基于SVM分类的强化学习系统，其基本思想是通过SVM良好的泛化性能，先将整个状态空间划分为若干个区间以提供状态的可区分度，然后在此基础上建立状态到动作的映射关系。实验表明，该方法不但能学习到最优策略，并能通过SVM从有限小样本空间泛化到整个状态空间，从而有效解决连续状态空间的表示问题。

其他文献

基于SNMP的IP网管系统的研究

随着网络应用的不断发展，网管系统作为与操作系统、数据库系统并列的三大基础软件平台，其重要性不言而喻。中小型企业网络规模的不断扩大，必将给网管系统带来巨大需求。通过近几

学位

网络管理IP网络拓扑发现SNMP协议NET-SNMP

基于QoS的多播路由技术的研究

随着Internet和通信技术的发展，通信网络带宽和处理能力得以提高，使得网络能提供更多的多媒体业务，其中许多业务都要求网络具有多播能力，例如音频/视频会议、交互式仿真、多人游

学位

多播路由贪婪算法仿真实验多媒体业务

基于SOA的固井工程设计系统研究与实现

学位

基于NVRAM的函数式语言容错机制研究

高性能计算机正广泛应用于国家安全与经济社会各个领域,例如核物理研究、天气预报、石油勘探,生物制药,动画制作等与社会和个人紧密相关的产业与方向,极大推动了科技水平和经

学位

容错NVRAM语言模型函数式语言

BUC算法在银行非现场稽核系统中的应用

银行非现场稽核是在现代信息处理和传递方式下迅速发展起来的一种审计监督方式。银行非现场稽核系统是一个面向分析的系统，它需要实现银行海量交易数据和历史数据的存储、查询

学位

银行非现场稽核系统指标计算CUBE计算BUC算法BUC_PC算法

面向链接分析的数据仓库及联机分析处理系统的研究与应用

数据仓库和OLAP是90年代初提出的概念，到90年代中期已经形成潮流。在美国，数据仓库已成为仅次于Internet之后的又一技术热点，以数据仓库和OLAP相结合建立的辅助决策支持系统是决

学位

数据仓库联机分析处理链接分析多维数据模型可视化

面向超级计算机的海量近线存储系统关键技术研究

随着大数据时代的来临,科学研究、工业应用和网络服务等领域的数据规模正爆炸式增长。当前,超级计算机在科学研究和国民经济建设中发挥着非常重要的作用,应用领域十分广泛,具

学位

超级计算机RAID-Z技术资源管理TH-MSS

基于Peer-to-Peer网络的资源搜索研究

计算机互联网络Internet已成为世界上最大的信息源,任何一个Internet用户都可以在网上查询他想要的信息。随着网络的飞速发展,P2P网络在文件共享、资源搜索方面得到广泛应用

学位

P2P状态缓存结构化路由性能

计算机支持的协同工作中的并发控制研究

随着计算机技术、网络技术和分布式技术的发展,计算机用户正从单用户工作模式向多用户协同工作方向发展。计算机支持的协同设计(Computer SupportedCooperative Design)就是

学位

协同工作并发控制冲突检测冲突消解访问控制

面向故障恢复的域内流量工程技术研究与实现

随着互联网快速发展,网络应用层出不穷,网络承载的流量及业务越来越多,对网络的可靠性提出了巨大挑战。但网络故障时有发生,严重影响了网络的正常运行,给用户及网络服务商带

学位

故障恢复流量工程SDN集中路由负载均衡

基于支持向量技术的Agent强化学习研究与应用

与本文相关的学术论文