搜索筛选:
搜索耗时0.2645秒,为你在为你在90,891,000篇论文里面共找到 46 篇相符的论文内容
类      型:
[学位论文] 作者:常乐, 来源:清华大学 年份:2002
该论文从多Agent系统与强化学习结合的角度,在认知科学中3阶段记忆演化模型的基础上,提出了一种新的强化学习:基于记忆演化的MAS强化学习.与传统的MAS强化学习方法不同,该方...
[期刊论文] 作者:孙羽,张汝波,等, 来源:计算机工程 年份:2002
强化学习一词来自行为心理学,该学科把学习看作反复试验的过程,强化学习系统中的资格迹用来解决时间信度分配问题,文章介绍了资格迹的基本原理和实现方法。...
[期刊论文] 作者:孙羽,张汝波,徐东, 来源:计算机工程 年份:2002
强化学习一词来自行为心理学该学科把学习看作反复试验的过程,强化学习系统中的资格迹用来解决时间信度分配问题,文章介绍,了资格迹的基本原理和实现方法。The term reinfo...
[期刊论文] 作者:罗青,李智军,吕恬生, 来源:上海交通大学学报 年份:2002
提出在机器人足球这样的复杂、动态的环境中使用强化学习的方式与问题 ,阐述了强化学习的实现及如何处理机器学习中的常见问题 ,即延迟奖赏、探索与利用、不完整信息等 ,同时...
[学位论文] 作者:赵志宏, 来源:南京大学 年份:2002
该文主要的研究内容是Agent血和多Agent系统中的强化学习技术,以及将强化学习和其他技术相结合,应用于Agent和多Agent系统的混合学习机制.该文的主要研究成果和创新之处体现...
[学位论文] 作者:杨丽, 来源:中国科学技术大学 年份:2002
近年来,强化学习发展迅速,国内外的学者在其理论、方法和思想技术方面进行了广泛的研究.由于强化学习研究的核心问题是算法的收敛速度,对提高了强化学习的速度和效率,国内外...
[期刊论文] 作者:李晓萌,杨煜普,等, 来源:控制与决策 年份:2002
递阶强化学习是解决状态空间庞大的复杂系统智能体决策的有效方法。具有离散动态特性的AGV调度系统需要实时动态的调度方法,而具有MaxQ递阶强化学习能力的多智能体通过高效的...
[期刊论文] 作者:李春贵,林海涛,刘永信, 来源:广西工学院学报 年份:2002
提出了一种新的on-policy强化学习算法,其基本思想是按照一定学习策略,利用κ(κ>1)步的信息来估计TD(λ)回报值,从而加快对行动最优值估计的更新.更新速度比SARSA(0)算法快,...
[期刊论文] 作者:罗青,李智军,Iqbal,Nadeem,吕恬生, 来源:系统仿真学报 年份:2002
与监督学习从范例中学习的方式不同,强化学习不需要先验知识,而是具有从经验中学习的能力.将强化学习应用在大状态空间中,必须应用函数逼近的方法,如使用径向基函数网络建立...
[期刊论文] 作者:罗青,李智军,Iqbal Nadeem,吕恬生, 来源:系统仿真学报 年份:2002
与监督学习从范例中学习的方式不同,强化学习不需要先验知识,而是具有从经验中学习的能力。将强化学习应用在大状态空间中,必须应用函数逼近的方法,如使用径向基函数网络建立...
[期刊论文] 作者:王醒策,张汝波,顾国昌, 来源:计算机工程 年份:2002
介绍了国内外关于强化学习的研究现状,对应用Q-学习和神经网络来实现多机器人的自适应编队方法给出了详细的系统描述。...
[期刊论文] 作者:李春贵,吴沧浦,刘永信, 来源:北京理工大学学报 年份:2002
提出一种新的集成规划的SARSA(λ)强化学习算法.该算法的主要思想是充分利用已有的经验数据,在无模型学习的同时估计系统模型,每进行一次无模型学习的试验后,利用模型在所记...
[学位论文] 作者:柳长春, 来源:中国科学院沈阳自动化研究所 年份:2002
强化学习作为一种解决组合优化问题的方法是近期发展起来的.它结合了神经网络、人工智能、认知科学、仿真和函数近似理论等领域的有关思想,具有解决状态空间巨大和难于建立精...
[期刊论文] 作者:李晓萌,杨煜普,许晓鸣,, 来源:模式识别与人工智能 年份:2002
在分布式的动态环境下,多智能体系统的协作是建立在规则集合上的动态过程,因此需要建立动态的协作规则.多智能体强化学习的平稳状态本质上即是智能体之间的协作规则,据此提出...
[期刊论文] 作者:杨国勋,郭晨,贾欣乐, 来源:信息与控制 年份:2002
强化学习算法与混合智能技术相结合,应用于船舶运动控制,克服了通常混合智能算法的学习需要一定数量样本数据的缺陷,又能发挥各种智能算法的优势.仿真结果表明在缺少样本数...
[期刊论文] 作者:殷翔,黄展翔, 来源:苏州大学学报(工科版) 年份:2002
机器人足球中的环境复杂性是对强化学习方法的一大挑战.本文介绍了在科大蓝鹰仿真机器人足球队采用的强化学习技术,将强化学习方法与启发式搜索策略结合后,针对底层动作中的...
[期刊论文] 作者:方宝富,王浩, 来源:合肥工业大学学报:自然科学版 年份:2002
通过对机器人足球中的agent进行强化学习,研究连续性决策问题;介绍了机器人足球竞赛策略的一个子问题3打2战术.然后在这个分布的、实时、局部可观察的、有噪音的领域内,提出...
[期刊论文] 作者:陈静虹, 来源:成都教育学院学报 年份:2002
语文学习是较为复杂的心智活动,它涉及到整个智力因素和非智力因素.在当前,对语文教学的探讨越来越深入,如何提高语文教学效果,如何让学生学习语文不再仅仅是为了应试而成为...
[期刊论文] 作者:陈家忠,, 来源:德阳教育学院学报 年份:2002
[期刊论文] 作者:徐培,金鸿章,王科俊,阎立涛, 来源:中国造船 年份:2002
本文在阐述强化学习的基本原理、方法的基础上, 提出了一种基于强化学习的TD算法与BP算法相结合的BPTD方法, 并将其用于对角回归神经网络的在线训练. 最后以在船舶横摇运动实...
相关搜索: