搜索筛选:
搜索耗时0.5776秒,为你在为你在102,267,441篇论文里面共找到 215 篇相符的论文内容
类      型:
[期刊论文] 作者:夏丽丽,, 来源:电脑知识与技术 年份:2011
标准的强化学习通常用于解决离散状态空间和行动空间序列决策问题,而很多实际系统的状态和行动为连续变量甚至混合变量,连续状态-连续行动强化学习已经成为该领域研究热点。...
[期刊论文] 作者:战忠丽,王强,陈显亭,, 来源:电子科技 年份:2011
强化学习不需要具有先验知识,通过试错与环境交互获得策略的改进,具有自学习和在线学习能力,是构造智能体的核心技术之一。文中首先综述了强化学习模型和基本原理,然后介绍了...
[学位论文] 作者:解宇, 来源:南京大学 年份:2011
强化学习在实际应用中通常会遇到一些问题,这些问题主要体现在泛化能力,学习速率以及学习的复用等方面。目前在强化学习中常采用函数估计和迁移方法来解决这些问题。而在函数估...
[学位论文] 作者:陈智超, 来源:哈尔滨工业大学 年份:2011
近几年来,强化学习和学徒学习作为机器学习的两个子领域得到了极大的发展。在目前的强化学习技术中,报酬函数的自动构建是迫切需要解决的问题。对于学徒学习,首先要构建出专...
[期刊论文] 作者:宋炯,, 来源:微计算机信息 年份:2011
强化学习过程中,Agent访问1个状态动作转换对只能更新1项值函数,使得学习收敛速度极慢。本文提出了一种利用无环状态路径来加速强化学习收敛速度的方法。通过获得训练情节...
[学位论文] 作者:袁姣红, 来源:中南大学 年份:2011
强化学习因具有自学习和在线学习的良好特性,已经成为机器学习领域的一个重要分支。然而,智能体在大规模高维度的决策环境下进行强化学习时被“维数灾难”(学习参数的个数随...
[期刊论文] 作者:殷锋社,, 来源:电子设计工程 年份:2011
强化学习具有与环境交互的优势,笔者提出的基于知识的Q-学习算法(KBQL)就是利用Q-学习算法的这个特点,利用Agent的先验知识来缩小Agent学习的状态空间,以加速强化学习的收敛性,...
[期刊论文] 作者:宋炯,金钊,杨维和,, 来源:云南大学学报(自然科学版) 年份:2011
机器学习中值函数需要反复更新直至其收敛是造成强化学习速度慢的根本原因.提出一种可实现批量更新值函数的学习方法,从加快值函数收敛的角度来加速强化学习.通过在训练情节...
[期刊论文] 作者:卞凯,, 来源:电子技术 年份:2011
文章针对区域协调控制中难以建立精确数学模型的特点,引入了强化学习,提出了基于强化学习的...
[学位论文] 作者:陈学松,, 来源:广东工业大学 年份:2011
强化学习(RL:Reinforcement Learning),又称增强学习或再励学习,是一种重要的机器学习方法,是近几年来智能控制和人工智能领域的研究热点之一。在各种学习方法中,强化学习具...
[期刊论文] 作者:韦庆丹,陈焕文,陈鹏慧,蔡琼,, 来源:微计算机信息 年份:2011
本文主要研究了强化学习在机器人足球比赛半场进攻中的应用,机器人足球比赛环境状态是一个连续的状态空间,利用强化学习必须将状态空间离散化,文中利用给定的状态变量来描述...
[期刊论文] 作者:连传强, 徐昕, 吴军, 李兆斌,, 来源:智能系统学报 年份:2011
多智能体强化学习算法在用于复杂的分布式系统时存在着状态空间大、学习效率低等问题.针对网络环境中的资源分配问题对多智能体强化学习算法进行了研究,将Q-学习算法和链式反...
[期刊论文] 作者:耿晓龙,李长江,, 来源:科学技术与工程 年份:2011
强化学习是通过对环境的反复试探建立起从环境状态到行为动作的映射。利用人工神经网络的反馈进行权值的调整,再与高学习效率的并行强化学习算法相结合,提出了基于人工神经网...
[期刊论文] 作者:程玉虎,冯涣婷,王雪松,, 来源:自动化学报 年份:2011
在策略迭代强化学习中,基函数构造是影响动作值函数逼近精度的一个重要因素.为了给动作值函数逼近提供合适的基函数,提出一种基于状态-动作图测地高斯基的策略迭代强化学习方...
[期刊论文] 作者:段勇,伊婧,, 来源:制造业自动化 年份:2011
针对复杂的移动机器人导航问题,提出一种基于二型模糊系统的强化学习算法。它既可以利用二型模糊系统解决大规模强化学习中状态空间到动作空间的映射问题,也可以利用强化学习...
[期刊论文] 作者:王培屹,, 来源:科技信息 年份:2011
强化学习中,我们设计算法来把...
[学位论文] 作者:杜坚, 来源:西安电子科技大学 年份:2011
强化学习是一种重要的机器学习方法,其特点是通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为,并且对环境的先验知识要求很低。多Agen...
[期刊论文] 作者:戴朝晖,袁姣红,吴敏,陈鑫,, 来源:控制理论与应用 年份:2011
为解决大规模强化学习中的"维度灾难"问题,克服以往学习算法的性能高度依赖于先验知识的局限性,本文提出一种基于概率模型的动态分层强化学习方法.首先基于贝叶斯学习对状态转...
[期刊论文] 作者:谢光强,陈学松,, 来源:计算机应用研究 年份:2011
模糊Sarsa学习(FSL)是基于Sarsa学习而提出的一种模糊强化学习算法,它是一种通过在线策略来逼近动作值函数的算法,其每条模糊规则中,动作的选择是按照Softmax公式选择下一个动作。...对于连续空间的复杂学习任务,FSL不能较好平衡探索和利用之间的关系,为此提出了一种新的基于蚁群优化的模糊强化学习算法(ACO-FSL),主要工作是把蚁群优化思想与传统的模糊强化学习算法结合起来形成一种新的算法...
[期刊论文] 作者:韩伟,鲁霜,, 来源:计算机应用与软件 年份:2011
以电子市场智能定价问题为研究背景,提出基于模糊推理的多智能体强化学习算法(FI-MARL)。...在马尔科夫博弈学习框架下,将领域知识初始化为一个模糊规则集合,智能体基于模糊规则选择动作,并采用强化学习来强化模糊规则。...
相关搜索: