强化学习算法研究

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户：svennis

【摘要】

：

针对智能Agent运动中普遍存在的避障问题,结合强化学习具有的试错和环境交互获得在某状态下选择动作的策略以及无导师在线学习等特性。在介绍强化学习的原理、分类以及主要算

【作者】

：

刘忠李海红刘全

【机构】

：

苏州大学计算机科学与技术学院,浙江工业大学信息学院,南京大学软件新技术国家重点实验室

【出处】

：

计算机工程与设计

【发表日期】

：

2008年22期

【关键词】

：

强化学习 Q学习 Agent智能体机器人控制避障搜索引擎

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对智能Agent运动中普遍存在的避障问题,结合强化学习具有的试错和环境交互获得在某状态下选择动作的策略以及无导师在线学习等特性。在介绍强化学习的原理、分类以及主要算法(TD(λ)、Q_learning、Dyna、Prioritized Sweeping、Sarsa)的基础上,对TD(λ)、Q_learning的算法进行分析,并将其应用到实验中。实验结果表明,强化学习中的、TD(λ)Q_learning等算法在不同情况下都能高效地解决避障等问题。

其他文献

基于OpenInventor的虚拟数控培训系统开发

针对传统数控培训中存在的场地受限、经费不足等问题，结合虚拟现实与人机交互等技术，提出了一种基于OpenInventor的数控培训系统实现方案。阐述了虚拟数控培训系统的软硬件开发

期刊

虚拟数控培训OPENINVENTOR编译行为仿真virtual NC training open inventor compiler behavior

浅谈网络信息资源开发与都柏林核心集的运用

网络信息资源的开发与利用成为当前图书馆工作人员一项重要的工作,网络信息资源的著录为用户准确快速的找到所需的信息提供保障,本文通过比较MARC著录格式和都柏林核心集著录

期刊

网络信息资源都柏林核心集MARC元数据著录Network Information ResourceDubin CoreMARCmetadatacata

SJ—FY750型四梭圆织机

<正> 海宁二轻机械厂为扩大服务领域,支援塑料编织袋工业的技术改造。承担了省轻工业厅下达的四梭圆织机的试制任务。经过一年左右的设计制造和小批量试生产,以及经玉环塑料

期刊

FY750圆织机

基于订阅发布的车辆GPS应急监控调度平台

研究并实现了一个集GPS、GIS、GPRS于一体的特种车辆应急监控调度系统平台。分析了传统系统的功能局限,针对其存在的关键问题,在介绍了平台整体构架的基础上,详细探讨了基于动态静态相结合的混合消息发布/订阅模式平台的实现。该平台符合实际的应急监控调度业务需求,很好地支持了分部门消息订阅、多监控中心的分布式同步以及离线消息等功能。各模块之间耦合度小,具有良好的可扩展性。适用于多部门、大规模的车辆应急

期刊

车辆应急监控调度3S系统消息发布/订阅中间件平台vehicle emergencymonitoring GPS/GIS/GPRS publish-su

一部颇具新意的证券史新作——评《复苏与起步：1980—1991年中国证券市场简史》

在近年来不断面世的证券史论著作中，王年咏博士撰著的《复苏与起步：1980—1991年中国证券市场简史》（中国财政经济出版社2004年出版），用详尽的史料、严谨的逻辑和丰富的图表，客观清

期刊

中国证券市场市场演进结构变迁

微生物显微图像分类识别技术研究及应用

阐述了储粮微生物显微分类识别的方法,提出了检测系统的硬件和软件组成。介绍了对检测到的微生物图像的目标区域,自动提取静态微生物图像的纹理特征和几何形状特征的主要技术和方法。实验结果表明,该方法可为储粮微生物的计算机自动模式识别提供稳定的特征参数值,不但有效提高了识别效率,而且也为储粮微生物的快速鉴定和分类研究开辟了新的途径。

期刊

储粮微生物纹理特征几何形状特征图像处理模式识别stored-grain microbetexture featuregeometrical confi

动态口令认证方案的研究与改进

研究了动态口令技术,分析了文献[1]中的一个可抵御劫取连接攻击的新的动态口令认证方案,原方案中由于对关键信息//的保护不够,尽管方案中的口令是动态的,但实际上原方案不能

期刊

冒充服务器攻击动态口令认证密码协议劫取连接攻击Diffie-Hellman密钥交换算法imitate server attack dynamic pa

腹腔引流管致消化道瘘的原因及治疗（3例报告）

我院自2003年7月-2003年11月因手术中腹腔引流管使用不当导致消化道瘘3例，现报道如下。

期刊

腹腔引流管消化道瘘升结肠瘘泛影葡胺造影剂

基于奇异性的语音端点检测方法

噪声信号对于语音信号是相对奇异的。小波变换是分析信号奇异性的有利工具。在利用小波对含噪语音进行分析研究的基础上,提出了一种新的端点检测方法。该算法利用了基于信号

期刊

小波变换端点检测奇异性高低频能量比鲁棒性wavelet transform speech endpoint detection singularity

基于支持向量机的高光谱影像分类研究

高光谱遥感技术,将反映目标辐射属性的光谱信息与反映目标空间几何关系的图像信息有机地结合在一起。高光谱影像丰富的光谱信息使其较全色遥感、多光谱遥感能够更好的进行地面目标的分类识别。本文综合利用支持向量机分类的若干关键技术,包括序列最小优化训练算法、多类支持向量机构造方法、核函数及其参数选择的交叉验证"网格搜索",给出了高光谱影像分类流程,进行了遥感数据试验分析。

期刊

高光谱影像支持向量机序列最小优化交叉验证网格搜索hyperspectral image support vector machine sequenti

强化学习算法研究

与本文相关的学术论文