搜索筛选:
搜索耗时0.2220秒,为你在为你在57,986,759篇论文里面共找到 125 篇相符的论文内容
类      型:
[期刊论文] 作者:夏丽丽,, 来源:电脑知识与技术 年份:2011
标准的强化学习通常用于解决离散状态空间和行动空间序列决策问题,而很多实际系统的状态和行动为连续变量甚至混合变量,连续状态-连续行动强化学习已经成为该领域研究热点。...
[期刊论文] 作者:战忠丽,王强,陈显亭,, 来源:电子科技 年份:2011
强化学习不需要具有先验知识,通过试错与环境交互获得策略的改进,具有自学习和在线学习能力,是构造智能体的核心技术之一。文中首先综述了强化学习模型和基本原理,然后介绍了...
[期刊论文] 作者:宋炯,, 来源:微计算机信息 年份:2011
强化学习过程中,Agent访问1个状态动作转换对只能更新1项值函数,使得学习收敛速度极慢。本文提出了一种利用无环状态路径来加速强化学习收敛速度的方法。通过获得训练情节...
[期刊论文] 作者:殷锋社,, 来源:电子设计工程 年份:2011
强化学习具有与环境交互的优势,笔者提出的基于知识的Q-学习算法(KBQL)就是利用Q-学习算法的这个特点,利用Agent的先验知识来缩小Agent学习的状态空间,以加速强化学习的收敛性,...
[期刊论文] 作者:宋炯,金钊,杨维和,, 来源:云南大学学报(自然科学版) 年份:2011
机器学习中值函数需要反复更新直至其收敛是造成强化学习速度慢的根本原因.提出一种可实现批量更新值函数的学习方法,从加快值函数收敛的角度来加速强化学习.通过在训练情节...
[学位论文] 作者:陈学松,, 来源:广东工业大学 年份:2011
强化学习(RL:Reinforcement Learning),又称增强学习或再励学习,是一种重要的机器学习方法,是近几年来智能控制和人工智能领域的研究热点之一。在各种学习方法中,强化学习具...
[期刊论文] 作者:韦庆丹,陈焕文,陈鹏慧,蔡琼,, 来源:微计算机信息 年份:2011
本文主要研究了强化学习在机器人足球比赛半场进攻中的应用,机器人足球比赛环境状态是一个连续的状态空间,利用强化学习必须将状态空间离散化,文中利用给定的状态变量来描述...
[期刊论文] 作者:耿晓龙,李长江,, 来源:科学技术与工程 年份:2011
强化学习是通过对环境的反复试探建立起从环境状态到行为动作的映射。利用人工神经网络的反馈进行权值的调整,再与高学习效率的并行强化学习算法相结合,提出了基于人工神经网...
[期刊论文] 作者:连传强, 徐昕, 吴军, 李兆斌,, 来源:智能系统学报 年份:2011
多智能体强化学习算法在用于复杂的分布式系统时存在着状态空间大、学习效率低等问题.针对网络环境中的资源分配问题对多智能体强化学习算法进行了研究,将Q-学习算法和链式反...
[期刊论文] 作者:段勇,伊婧,, 来源:制造业自动化 年份:2011
针对复杂的移动机器人导航问题,提出一种基于二型模糊系统的强化学习算法。它既可以利用二型模糊系统解决大规模强化学习中状态空间到动作空间的映射问题,也可以利用强化学习...
[期刊论文] 作者:程玉虎,冯涣婷,王雪松,, 来源:自动化学报 年份:2011
在策略迭代强化学习中,基函数构造是影响动作值函数逼近精度的一个重要因素.为了给动作值函数逼近提供合适的基函数,提出一种基于状态-动作图测地高斯基的策略迭代强化学习方...
[期刊论文] 作者:王培屹,, 来源:科技信息 年份:2011
强化学习中,我们设计算法来把...
[期刊论文] 作者:戴朝晖,袁姣红,吴敏,陈鑫,, 来源:控制理论与应用 年份:2011
为解决大规模强化学习中的"维度灾难"问题,克服以往学习算法的性能高度依赖于先验知识的局限性,本文提出一种基于概率模型的动态分层强化学习方法.首先基于贝叶斯学习对状态转...
[期刊论文] 作者:谢光强,陈学松,, 来源:计算机应用研究 年份:2011
模糊Sarsa学习(FSL)是基于Sarsa学习而提出的一种模糊强化学习算法,它是一种通过在线策略来逼近动作值函数的算法,其每条模糊规则中,动作的选择是按照Softmax公式选择下一个动作。...对于连续空间的复杂学习任务,FSL不能较好平衡探索和利用之间的关系,为此提出了一种新的基于蚁群优化的模糊强化学习算法(ACO-FSL),主要工作是把蚁群优化思想与传统的模糊强化学习算法结合起来形成一种新的算法...
[期刊论文] 作者:黄晗文,郑宇,, 来源:计算机工程与科学 年份:2011
本文提出一种基于定性模糊网络的强化学习知识传递方法。该方法通过建立系统的定性模型,并用定性模糊网络抽取基于定性动作的次优策略的共同特征获得与系统参数无关知识。这...
[期刊论文] 作者:韩伟,鲁霜,, 来源:计算机应用与软件 年份:2011
以电子市场智能定价问题为研究背景,提出基于模糊推理的多智能体强化学习算法(FI-MARL)。...在马尔科夫博弈学习框架下,将领域知识初始化为一个模糊规则集合,智能体基于模糊规则选择动作,并采用强化学习来强化模糊规则。...
[期刊论文] 作者:黄爱娟,苏和,李斌,, 来源:临床医学工程 年份:2011
目的分析强化学习外科抗生素使用指南前后我院普外科围手术期抗生素的使用情况。方法从2007年1月至2011年1月间我院普外科手术住院患者的资料中选取320份,其中强化学习前160...
[期刊论文] 作者:王晓燕,刘全,傅启明,张乐,, 来源:计算机工程 年份:2011
为解决传统遗传算法早熟收敛和收敛速度慢的问题,提出一种基于强化学习的多策略选择遗传算法MPSGA。通过使用不同的选择策略将整个种群划分为3个子种群并分别进化,能提高种群...
[期刊论文] 作者:温凯歌,杨照辉, 来源:计算机工程 年份:2011
根据交通流及交叉口信号特征,建立强化学习的状态空间、动作空间和回报空间,以最小化车辆在交叉口的延误为控制...
[期刊论文] 作者:沈乐,毛新军,董孟高, 来源:计算机工程与科学 年份:2011
强化学习是机器学习领域中的一...
相关搜索: