搜索筛选:
搜索耗时0.5864秒,为你在为你在102,267,441篇论文里面共找到 169 篇相符的论文内容
类      型:
[学位论文] 作者:张晓艳, 来源:合肥工业大学 年份:2010
分层强化学习,如Option、MAXQ等,通过引入抽象机制来解决大规模系统的“维数灾”问题,并具有加速策略学习的功能。Option算法是运用比较广泛的一种分层强化学习算法,它通过引...
[期刊论文] 作者:魏英姿,谷侃锋,, 来源:系统仿真学报 年份:2010
针对作业车间动态调度问题,在模式驱动调度的框架下,提出遗传强化学习动态调度方法。...首先,采用优先规则编码的染色体表达问题的解,将染色体分割成基因模式作为分阶段调度算法的状态模式;其次,设计性能预测变量,构建启发式立即回报函数,引导和加快遗传强化学习算法的搜索进程;再次,设置遗传算子、...强化学习及其相关参数以实现搜索过程"开采"与"探索"之间的平衡;最后,仿真实验结果验证了遗传强化学习调度方法的有效性。...
[期刊论文] 作者:付燕宁,张家臣,刘磊,, 来源:吉林大学学报(工学版) 年份:2010
强化学习应用到基于预定义过程的WS组合,提出了QoS实际性能驱动的随机强化学习Web服务组合方法。利用该方法可以根据WS的实际性能逐渐为模型中的任务学习到优化的任务分配...
[期刊论文] 作者:叶婉秋,, 来源:电脑学习 年份:2010
采用结合智能强化学习和遗传算法来求解车间作业调度问题。...
[期刊论文] 作者:刘升贵,朱旦晨,, 来源:计算机与现代化 年份:2010
主要讨论一种基于动态模糊集的Agent强化学习策略,介绍Agent强化学习的目标,状态值函数和动作值函数,马尔可夫决策过程的优化以及学习策略等。...
[期刊论文] 作者:陈学松,杨宜民,, 来源:计算机应用研究 年份:2010
在未知环境中,关于agent的学习行为是一个既充满挑战又有趣的问题,强化学习通过试探与环境交互获得策略的改进,其学习和在线学习的特点使其成为机器学习研究的一个重要分支。...
[期刊论文] 作者:赵昀,陈庆伟,胡维礼,, 来源:系统工程与电子技术 年份:2010
针对强化学习中探索和利用之间的平衡控制问题,提出了一种基于信息熵的强化学习算法。该算法利用信息熵的概念,定义了一种新的状态重要性测度,度量了状态与目标之间的关联程...
[学位论文] 作者:闫其粹, 来源:苏州大学 年份:2010
针对强化学习任务中存在的“维数灾”(即状态空间的大小随着特征数量的增加而发生指数级的增长)及收敛速度慢两个普遍且严重的问题,本文分别从奖赏函数、分层强化学习和函数...
[期刊论文] 作者:马耀飞,龚光红,彭晓源,, 来源:北京航空航天大学学报 年份:2010
航空兵的认知行为模型为仿真航空兵的空战决策提供支持,通过强化学习积累战术决策经验.在虚拟战场环境中,作战态势通过多个属性进行描述,这使得强化学习过程将面临一个高维度...
[期刊论文] 作者:潘林章,, 来源:辅导员下旬刊(教学研究) 年份:2010
所谓“强化学习”,是指在“识记”和“领会”的基础上,继续把要掌握的知识和能力提升到接近学生的最高潜能的层次.一些关于这方面的研究显示:学生要想在一段时间之后有良好的...
[学位论文] 作者:徐明亮,, 来源: 年份:2010
强化学习作为一种重要的机器学习方法,其最显著的特点是通过与环境交互,利用环境反馈的奖惩,即增强信号来调整和改善自己的行为,最终获得最佳策略。由于该方法具有对环境的先...
[期刊论文] 作者:刘博,雷汝海,, 来源:中国科技论文在线 年份:2010
针对现有知识迁移方法仅适用于同质强化学习Agent问题,提出一种能够在具有不同状态动作空间的异质Agent间迁移知识的Q学习算法。该算法的主要思想是通过新旧Agent共同学习过的...
[期刊论文] 作者:陈圣磊,谷瑞军,陈耿,薛晖,, 来源:计算机科学 年份:2010
近年来强化学习中的策略梯度方法以其良好的收敛性能吸引了广泛的关注。研究了平均模型中的自然梯度算法,针对现有算法估计梯度时效率较低的问题,在梯度估计的值函数逼近中采...
[期刊论文] 作者:吴士泓,李德华,潘莹,, 来源:计算机工程与应用 年份:2010
将多Agent协作学习过程看作是一个个的阶段博弈,针对博弈中存在多个均衡解的问题,提出一种集体理性约束下的多Agent协作强化学习算法。该算法使得系统中的每个Agent均按照集...
[期刊论文] 作者:李琼,郭御风,蒋艳凰,, 来源:计算机工程与科学 年份:2010
强化学习作为一种以环境反馈作为输入、自适应环境的特殊的机器学习方法,能通过观测环境状态的变...
[期刊论文] 作者:张欣,戴帅,, 来源:计算机工程与科学 年份:2010
本文提出了一种新的分层强化学习Option自动生成算法,以Agent在学习初始阶段探测到的状态空间为输入,采用模糊逻辑神经元的网络进行聚类,在聚类后的各状态子集上通过经验回放学...
[期刊论文] 作者:王宝学, 来源:协商论坛 年份:2010
强化学习提升机关工作人员素质,灵宝市政协近期开展一系列的学习、自查自纠、集中整改活动。首先,健全和完善各项制度,建立学习平台,给所有工作人员下学习任务。其次,实行“轮讲...
[期刊论文] 作者:潘莹,李德华,梁京章,王俊英,, 来源:华中科技大学学报(自然科学版) 年份:2010
针对将单AgentQ-学习协作算法直接扩展到多Agent系统会导致状态-动作对集合的急剧膨胀、从而影响多Agent的协作学习速度的问题,提出了基于实用推理的多Agent协作强化学习算法...
[期刊论文] 作者:李益群, 张文生, 杨柳, 刘琰琼,, 来源:计算机应用研究 年份:2010
针对协同过滤推荐算法性能稳定性往往受到数据稀疏性影响的问题,在强化学习的框架下提出一种基于标签的协同过滤推荐算法,利用标签模拟用户兴趣来构造非稀疏的个性化数据,并...
[期刊论文] 作者:邵杰,杜丽娟,杨静宇,, 来源:通信技术 年份:2010
增强学习使机器人能发现一组用于指导其强化学习行为的规则。遗传算法则在现有的规则中淘汰掉较差的,并利用较优的种...
相关搜索: