搜索与强化学习相关的论文

基于强化学习的智能体避障研究

[会议论文] 作者：应小昆,庞毅,孙青林,陈增强, 来源：第九届中国多智能体系统与控制会议(MASC2013) 年份：2014

针对智能体避障问题,采用强化学习算法予以解决.首先,介绍强化学习的原理,分析对比了解决强化学习中探索与利用平衡问题的ε-greedy算法和softmax算法;然后,对经典强化学习算法Sarsa算法和Q-Learning...算法进行了分析说明,通过对智能体避障问题进行合理地简化与建模,将两种经典强化学习算法用于解决智能体避障问题,使用softmax算法解决探索与利用平衡问题.最后,采用matlab进行仿...

下载此文

基于强化学习的值迭代算法

[期刊论文] 作者：崔军晓,朱蒙婷,王海燕,章鹏,王辉,, 来源：电脑知识与技术年份：2014

强化学习（Reinforcement Learning）是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化：值迭代、策略迭代、策略搜索。该...

下载此文

基于性能势的A＊平均奖赏强化学习算法研究

[期刊论文] 作者：黄浩晖,杨宛璐,陈玮,, 来源：计算机仿真年份：2014

强化学习和性能势理论是当前人工智能领域的研究热点,RoboCup足球机器人仿真为人工智能和机器人学研究提供了一个良好的实验平台,针对强化学习和性能势理论在足球机器人仿真应用中求解过程不稳定和收敛速度过慢问题...,提出了一个新的强化学习算法——基于性能势的A*平均奖赏强化学习算法(GA*-learning)。...GA*-learning在基于性能势的平均奖赏强化学习算法(G-learning)中加入启发式函...

下载此文

强化学习中值函数逼近方法的研究

[学位论文] 作者：陈桂兴, 来源：苏州大学年份：2014

强化学习是一类无需先验知识的机器学习方法，以Agent与环境不断的交互为主要特征，以寻找能带来最大期望累积折扣奖赏的策略为目标。强化学习中环境可能具有大状态空间甚至连续...

下载此文

基于强化学习的值迭代算法

[期刊论文] 作者：崔军晓等, 来源：电脑知识与技术年份：2014

摘要：强化学习（Reinforcement Learning）是学习环境状态到动作的一种映射，并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化：值迭代、策略迭代、策略搜索。...该文介绍了强化学习的原理、算法，并对有环境模型和无环境模型的离散空间值迭代算法进行研究，并且把该算法用于固定起点和随机起点的格子世界问题。...

下载此文

图像控制策略的强化学习

[期刊论文] 作者：汪笑宇,郭圆,邹青青,王辉,, 来源：福建电脑年份：2014

本文主要讨论采用最小二乘梯度下降方法确定卷积神经网络以实现对图像特征的提取,并在识别图像后应用强化学习的方法让行动主体给出合适的策略。...首先,本文通过卷积神经网络减少权值的数目,经特征提取后得到探索图像;之后对所得图像采用强化学习的方法进行探索分析得到行动策略。...

下载此文

多机器人系统强化学习研究综述

[期刊论文] 作者：马磊,张文旭,戴朝华,, 来源：西南交通大学学报年份：2014

强化学习是实现多机器人对复杂和不确定环境良好适应性的有效手段,是设计智能系统的核心技术之一.从强化学习的基本思想与理论框架出发,针对局部可观测性、计算复杂度和收敛...

下载此文

基于多智能体强化学习的多机器人协作策略研究

[期刊论文] 作者：段勇,徐心和,, 来源：系统工程理论与实践年份：2014

研究了一种基于智能体动作预测的多智能体强化学习算法.在多智能体系统中,学习智能体选择动作不可避免地要受到其他智能体执行动作的影响,因此强化学习系统需要考虑多智能体...

下载此文

基于风险避免强化学习的单交叉口配时优化

[期刊论文] 作者：毛盈方,卢守峰,, 来源：交通科学与工程年份：2014

现有的信号配时强化学习模型大多是风险中立的强化学习模型,其缺点是在线学习中稳定性和鲁棒性较差,需要的运行时间较长,且收敛效果不明显.为了解决存在的这些问题,建立了风...

下载此文

基于时隙CSMA的水声无线传感器网络节能强化学习算法

[期刊论文] 作者：周文刚,谭永杰,朱海,, 来源：计算机测量与控制年份：2014

针对水声无线传感器网络的节能问题,提出了一种基于时隙CSMA的强化学习算法;该算法利用强化学习协议自适应水下环境,根据数据传输的距离调整发射功率,从而减少能量消耗,再结...

下载此文

基于Agent强化学习的地图迁移学习算法

[期刊论文] 作者：张炎,刘博文,, 来源：电子世界年份：2014

强化学习是Agent学习中广泛使用的方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用,但学习速度慢是强化学习的主要不足。...

下载此文

强化学习中离策略算法的分析及研究

[学位论文] 作者：傅启明,, 来源：苏州大学年份：2014

强化学习是一种通过与环境进行“试错”交互寻找能够带来最大期望累积奖赏策略的学习方法。根据学习过程中行为策略与目标策略是否一致，强化学习方法分为在策略算法和离策略算...

下载此文

基于改进强化学习的PID参数整定原理及应用

[期刊论文] 作者：高瑞娟,吴梅,, 来源：现代电子技术年份：2014

强化学习能够通过系统自身和环境的交互实现参数的自动调整,但是在控制律参数需要频繁调整的应用...

下载此文

基于性能势的改进平均奖赏强化学习算法研究

[学位论文] 作者：杨宛璐, 来源：广东工业大学年份：2014

强化学习是人工智能领域内用于解决学习控制问题的一个重要方法。机器人仿真足球比赛是一个多智能体系统研究的标准问题,具有动态实时、分布式控制、不确定环境中的合作和对...

下载此文

基于强化学习的农业移动机器人视觉导航

[期刊论文] 作者：周俊,陈钦,梁泉,, 来源：农业机械学报年份：2014

以强化学习为基础，结合模糊逻辑理论研究了农业移动机器人通过自主学习获取导航控制策略的方法。首先使用机器视觉检测环境障碍并获取障碍物相对于移动机器人的方向和距离信息...

下载此文

基于强化学习的交叉口交通低排放信号控制研究

[期刊论文] 作者：李昕,, 来源：电子技术年份：2014

Q学习是一种无模型的强化学习算法,通过与环境的试错交互学习最优控制策略。本文提...

下载此文

基于强化学习的多成品率衰变设备预防维修策略

[学位论文] 作者：杨智, 来源：年份：2014

本文针对此类具有多成品率质量问题的衰变设备，建立部分可观马尔可夫决策模型，采用基于强化学习的预防维修(RLPM)策略来求解。...首先，本文描述了衰变设备的维修问题，并建立部分可观马尔可夫决策模型，考虑两类检测误差及一系列收益和成本参数，通过一种基于平均奖励的强化学习算法—Q-learning算法，根据每组系统观测信息...

下载此文

基于强化学习的订单生产型企业的订单接受策略

[期刊论文] 作者：王晓欢,王宁宁,樊治平,, 来源：系统工程理论与实践年份：2014

针对订单生产型企业在订单接受决策过程中的不确定性,基于强化学习的思想,在考虑生产成本、延迟惩罚成本以及拒绝成本的前提下,引入顾客等级这一要素,从收益管理的角度建立了...

下载此文

强化学习算法的研究与实验

[学位论文] 作者：田苗, 来源：年份：2014

通过对强化学习的深入研究,搭建了一种基于Q-learning算法的柔性结构控制器,该控制器很好的解决了当奖赏函数和状态转移函数无法准确知道的情况下价值...

下载此文

基于蚂蚁优化算法的分层强化学习

[期刊论文] 作者：周晓柯,孙志毅,彭志平,, 来源：计算机应用研究年份：2014

自主系统中,agent通过与环境交互来执行分配给他们的任务,采用分层强化学习技术有助于agent在大型、复杂的环境中提高学习效率。...

下载此文

看过本文同时还关注