基于偏向信息学习的双层强化学习算法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户：xh7304

【摘要】

：

传统的强化学习存在收敛速度慢等问题，结合先验知识预置某些偏向可以加快学习速度．但是当先验知识不正确时又可能导致学习过程不收敛．对此，提出基于偏向信息学习的双层强化学习模

【作者】

：

林芬石川罗杰文史忠植

【机构】

：

中国科学院计算技术研究所智能信息处理重点实验室,中国科学院研究生院,北京邮电大学北京市智能软件与多媒体重点实验室

【出处】

：

计算机研究与发展

【发表日期】

：

2008年9期

【关键词】

：

强化学习 Q-学习算法偏向信息偏向信息学习先验知识 reinforcement learning Q-learning bias bias learnin

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的强化学习存在收敛速度慢等问题，结合先验知识预置某些偏向可以加快学习速度．但是当先验知识不正确时又可能导致学习过程不收敛．对此，提出基于偏向信息学习的双层强化学习模型．该模型将强化学习过程和偏向信息学习过程结合起来：偏向信息指导强化学习的行为选择策略，同时强化学习指导偏向信息学习过程．该方法在有效利用先验知识的同时能够消除不正确先验知识的影响．针对迷宫问题的实验表明，该方法能够稳定收敛到最优策略；并且能够有效利用先验知识提高学习效率，加快学习过程的收敛．

其他文献

激励式护理对甲状腺癌手术患者生活质量的影响

目的分析甲状腺癌患者中激励式护理的应用效果。方法将收治的66例甲状腺癌患者作为研究对象,按照抽签法分为常规组(予以常规护理)和干预组(予以激励式护理),各33例。比较两组

期刊

激励式护理生活质量甲状腺癌

持续发展问题

1992年6月在巴西里约热内卢召开了联合国环境与发展会议,这次'地球高级会议'为世人所注目,随之,世界环境问题也越来越受到中国人的关注.从本期开始我们设'世界环

期刊

全球环境持续发展环境保护

基于Petri网的混惑检测

在Petri网中，并发和冲突是两个重要的概念，并发和冲突现象混淆的系统特征称之为混惑，当系统存在混惑时获取一个正确的执行以及分析系统性质较为困难，因而存在混惑的系统不是一个

期刊

PETRI网工作流网混惑结构混惑检测Petri net WF-net confusion structural confusion detection

电信运营商实时出账技术研究

目前电信运营商基本是按自然月进行月结出账,存在实时性差、实时费用不准的问题,难以适应移动互联网的发展模式。基于此,从背景、内容、技术、效果等方面对实时出账进行探讨

期刊

实时出账业务支撑系统电信运营

位置与标识分离的命名和寻址体系结构研究综述

随着互联网的发展,传统TCP/IP网络体系结构的IP地址语义过载问题所导致的移动性、扩展性和安全性等方面的缺陷逐渐暴露出来,并限制了多宿主、流量工程等新技术的发展.针对这

期刊

命名与寻址位置与标识分离扩展性移动性安全性多宿主流量工程naming and addressing locator/identifier spli

钢渣的处理与利用

<正> 一、概论钢渣产自炼钢过程,其主要成份有:CaO、SiO_2、Al_2O_3、FeO、Fe_2O_3、MgO、MnO、P_2O_5、f-CaO等,根据矿石成份,有时还可能有V_2O_5、TiO_2等.在表1中列入我国

期刊

钢渣炼钢废渣处理

一种无线传感器网络拓扑的启发式分簇控制算法

无线传感器网络的首要设计目标即延长网络生命期,而网络拓扑作为上层协议的重要平台,是实现这一目标的支撑基础.为了研究符合网络生命期目标要求的传感器网络拓扑控制方案,针

期刊

无线传感器网络拓扑控制簇划分簇头选举启发式wireless sensor networktopology controlcluster partiti

干扰素β-1b+甲基强的松龙冲击方案在多发性硬化症治疗中的可行性分析

目的多发性硬化症治疗中,干扰素β-1b+甲基强的松龙冲击方案的临床效果。方法收治多发性硬化患者若干名,其中88例患者自愿参与研究,平均分为两组,对照组实施单纯甲基强的松龙

期刊

多发性硬化症甲基强的松龙干扰素β-1b

片上二维网络互连性能分析

片上互连网络已日益成为影响片上多处理器性能的重要因素之一．几乎所有的互连结构均是在二维网络的基础上演变发展而来的．首先分析了几种常见的内部结点度均为4的二维网络的静

期刊

片上多处理器片上网络拓扑性能分析单位成本延迟负载能力chip multiprocessor networks-on-chip topology per

回顾历史不忘初心

<正>自1891年重庆被迫开埠后,近代重庆社会便随着中国日益加深的半殖民地半封建化过程而发生深刻变化,并逐渐融入近代中国社会变革和民主革命的大潮。长夜漫漫,巴山蜀水民心

期刊

重庆社会中共重庆国民党左派近代中国社会半殖民地半封建时代责任共产主义战士国共合作四川人民泸顺起义

基于偏向信息学习的双层强化学习算法

与本文相关的学术论文