搜索筛选:
搜索耗时0.2440秒,为你在为你在58,780,000篇论文里面共找到 116 篇相符的论文内容
类      型:
[期刊论文] 作者:崔军晓,朱蒙婷,王海燕,章鹏,王辉,, 来源:电脑知识与技术 年份:2014
强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该...
[期刊论文] 作者:黄浩晖,杨宛璐,陈玮,, 来源:计算机仿真 年份:2014
强化学习和性能势理论是当前人工智能领域的研究热点,RoboCup足球机器人仿真为人工智能和机器人学研究提供了一个良好的实验平台,针对强化学习和性能势理论在足球机器人仿真应用中求解过程不稳定和收敛速度过慢问题...,提出了一个新的强化学习算法——基于性能势的A*平均奖赏强化学习算法(GA*-learning)。...GA*-learning在基于性能势的平均奖赏强化学习算法(G-learning)中加入启发式函...
[期刊论文] 作者:汪笑宇,郭圆,邹青青,王辉,, 来源:福建电脑 年份:2014
本文主要讨论采用最小二乘梯度下降方法确定卷积神经网络以实现对图像特征的提取,并在识别图像后应用强化学习的方法让行动主体给出合适的策略。...首先,本文通过卷积神经网络减少权值的数目,经特征提取后得到探索图像;之后对所得图像采用强化学习的方法进行探索分析得到行动策略。...
[期刊论文] 作者:马磊,张文旭,戴朝华,, 来源:西南交通大学学报 年份:2014
强化学习是实现多机器人对复杂和不确定环境良好适应性的有效手段,是设计智能系统的核心技术之一.从强化学习的基本思想与理论框架出发,针对局部可观测性、计算复杂度和收敛...
[期刊论文] 作者:毛盈方,卢守峰,, 来源:交通科学与工程 年份:2014
现有的信号配时强化学习模型大多是风险中立的强化学习模型,其缺点是在线学习中稳定性和鲁棒性较差,需要的运行时间较长,且收敛效果不明显.为了解决存在的这些问题,建立了风...
[期刊论文] 作者:周文刚,谭永杰,朱海,, 来源:计算机测量与控制 年份:2014
针对水声无线传感器网络的节能问题,提出了一种基于时隙CSMA的强化学习算法;该算法利用强化学习协议自适应水下环境,根据数据传输的距离调整发射功率,从而减少能量消耗,再结...
[期刊论文] 作者:张炎,刘博文,, 来源:电子世界 年份:2014
强化学习是Agent学习中广泛使用的方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用,但学习速度慢是强化学习的主要不足。...
[学位论文] 作者:傅启明,, 来源:苏州大学 年份:2014
强化学习是一种通过与环境进行“试错”交互寻找能够带来最大期望累积奖赏策略的学习方法。根据学习过程中行为策略与目标策略是否一致,强化学习方法分为在策略算法和离策略算...
[期刊论文] 作者:高瑞娟,吴梅,, 来源:现代电子技术 年份:2014
强化学习能够通过系统自身和环境的交互实现参数的自动调整,但是在控制律参数需要频繁调整的应用...
[期刊论文] 作者:周俊,陈钦,梁泉,, 来源:农业机械学报 年份:2014
强化学习为基础,结合模糊逻辑理论研究了农业移动机器人通过自主学习获取导航控制策略的方法。首先使用机器视觉检测环境障碍并获取障碍物相对于移动机器人的方向和距离信息...
[期刊论文] 作者:仵博,郑红燕,冯延蓬,陈鑫,, 来源:电子学报 年份:2014
针对贝叶斯强化学习中参数个数巨大,收敛速度慢,无法实现在线学习的问题,提出一种基于模型的可分解贝叶斯强化学习方法.首先,将学习参数进行可分解表示,降低学习参数的个数;...
[期刊论文] 作者:周晓柯,孙志毅,彭志平,, 来源:计算机应用研究 年份:2014
自主系统中,agent通过与环境交互来执行分配给他们的任务,采用分层强化学习技术有助于agent在大型、复杂的环境中提高学习效率。...
[期刊论文] 作者:董博,刘克平,李元春,, 来源:吉林大学学报(工学版) 年份:2014
基于ction-critic-identifier(ACI)与RBF神经网络,提出了一种外界动态约束下的可重构模块机器人分散强化学习最优控制方法,解决了存在强耦合不确定性的模块机器人系统的连续时...
[期刊论文] 作者:叶锦华,李迪,叶峰,, 来源:吉林大学学报(工学版) 年份:2014
针对包含执行器动力学模型的三阶不确定非完整轮式移动机器人系统,提出了一种基于反演设计和双强化学习自适应模糊系统的轨迹跟踪控制方法。该控制方法对运动学控制器采用分流...
[期刊论文] 作者:杨宛璐,陈玮,黄浩晖,王广涛,, 来源:计算机工程与设计 年份:2014
强化学习是人工智能领域中解决学习控制的一种重要方法。在强化学习算法中,平均奖赏强化学习是以平均奖赏值作为参照标准,适用于解决具有循环特性或不具终结状态的问题,其存在参...
[期刊论文] 作者:朱斐,刘全,傅启明,伏玉琛,, 来源:计算机研究与发展 年份:2014
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优...
[期刊论文] 作者:邱金波,周晓柯,, 来源:广东石油化工学院学报 年份:2014
分层强化学习是为了解决强化学习“维数灾”的问题而提出的。Options的分层结构使Agent能更高效地完成学习任务,但通常Options的学习是在同一个状态空间的,Agent学习到的知识不...
[期刊论文] 作者:宋拴,俞扬,, 来源:计算机工程与应用 年份:2014
强化学习研究智能体如何从与环境的交互中学习最优的策略,以最大化长期奖赏。由于环境反馈的滞后性,强化学习问题面临巨大的决策空间,进行有效的搜索是获得成功学习的关键。以往...
[期刊论文] 作者:朱毅,, 来源:数学学习与研究 年份:2014
作业批改是教学中的一个重要环节,这个环节的重要性视乎随着学生年龄的增大,越来越不受到教师的重视.在小学阶段,教师会在学生作业中有错误的地方精心地批注,指导学生纠正.而...
[期刊论文] 作者:齐宣, 来源:黑龙江国土资源 年份:2014
本报讯齐齐哈尔市土地统征工作站深入开展党的群众路线教育实践活动,采取多种学习形式,全面提升工作人员的业务水平,取得了良好的效果。日前,该单位组织工作人员专程到甘南县国土......
相关搜索: