搜索与强化学习相关的论文

连续时间分层强化学习算法

[学位论文] 作者：张晓艳, 来源：合肥工业大学年份：2010

分层强化学习,如Option、MAXQ等,通过引入抽象机制来解决大规模系统的“维数灾”问题,并具有加速策略学习的功能。Option算法是运用比较广泛的一种分层强化学习算法,它通过引...

下载此文

[期刊论文] 作者：魏英姿,谷侃锋,, 来源：系统仿真学报年份：2010

针对作业车间动态调度问题,在模式驱动调度的框架下,提出遗传强化学习动态调度方法。...首先,采用优先规则编码的染色体表达问题的解,将染色体分割成基因模式作为分阶段调度算法的状态模式;其次,设计性能预测变量,构建启发式立即回报函数,引导和加快遗传强化学习算法的搜索进程;再次,设置遗传算子、...强化学习及其相关参数以实现搜索过程"开采"与"探索"之间的平衡;最后,仿真实验结果验证了遗传强化学习调度方法的有效性。...

下载此文

面向预定义过程的强化学习WS组合

[期刊论文] 作者：付燕宁,张家臣,刘磊,, 来源：吉林大学学报(工学版) 年份：2010

将强化学习应用到基于预定义过程的WS组合,提出了QoS实际性能驱动的随机强化学习Web服务组合方法。利用该方法可以根据WS的实际性能逐渐为模型中的任务学习到优化的任务分配...

下载此文

基于智能强化学习的遗传算法研究

[期刊论文] 作者：叶婉秋,, 来源：电脑学习年份：2010

采用结合智能强化学习和遗传算法来求解车间作业调度问题。...

下载此文

一种基于DFS的Agent强化学习策略研究

[期刊论文] 作者：刘升贵,朱旦晨,, 来源：计算机与现代化年份：2010

主要讨论一种基于动态模糊集的Agent强化学习策略,介绍Agent强化学习的目标,状态值函数和动作值函数,马尔可夫决策过程的优化以及学习策略等。...

下载此文

强化学习研究综述

[期刊论文] 作者：陈学松,杨宜民,, 来源：计算机应用研究年份：2010

在未知环境中,关于agent的学习行为是一个既充满挑战又有趣的问题,强化学习通过试探与环境交互获得策略的改进,其学习和在线学习的特点使其成为机器学习研究的一个重要分支。...

下载此文

一种基于信息熵的强化学习算法

[期刊论文] 作者：赵昀,陈庆伟,胡维礼,, 来源：系统工程与电子技术年份：2010

针对强化学习中探索和利用之间的平衡控制问题,提出了一种基于信息熵的强化学习算法。该算法利用信息熵的概念,定义了一种新的状态重要性测度,度量了状态与目标之间的关联程...

下载此文

解决强化学习中维数灾问题的方法研究

[学位论文] 作者：闫其粹, 来源：苏州大学年份：2010

针对强化学习任务中存在的“维数灾”(即状态空间的大小随着特征数量的增加而发生指数级的增长)及收敛速度慢两个普遍且严重的问题,本文分别从奖赏函数、分层强化学习和函数...

下载此文

基于强化学习的航空兵认知行为模型

[期刊论文] 作者：马耀飞,龚光红,彭晓源,, 来源：北京航空航天大学学报年份：2010

航空兵的认知行为模型为仿真航空兵的空战决策提供支持,通过强化学习积累战术决策经验.在虚拟战场环境中,作战态势通过多个属性进行描述,这使得强化学习过程将面临一个高维度...

下载此文

高三冲刺“强化学习”

[期刊论文] 作者：潘林章,, 来源：辅导员下旬刊（教学研究）年份：2010

所谓“强化学习”,是指在“识记”和“领会”的基础上,继续把要掌握的知识和能力提升到接近学生的最高潜能的层次.一些关于这方面的研究显示:学生要想在一段时间之后有良好的...

下载此文

强化学习及其应用研究

[学位论文] 作者：徐明亮,, 来源：年份：2010

强化学习作为一种重要的机器学习方法,其最显著的特点是通过与环境交互,利用环境反馈的奖惩,即增强信号来调整和改善自己的行为,最终获得最佳策略。由于该方法具有对环境的先...

下载此文

异质Agent间的知识迁移强化学习

[期刊论文] 作者：刘博,雷汝海,, 来源：中国科技论文在线年份：2010

针对现有知识迁移方法仅适用于同质强化学习Agent问题，提出一种能够在具有不同状态动作空间的异质Agent间迁移知识的Q学习算法。该算法的主要思想是通过新旧Agent共同学习过的...

下载此文

基于TD（λ）的自然梯度强化学习算法

[期刊论文] 作者：陈圣磊,谷瑞军,陈耿,薛晖,, 来源：计算机科学年份：2010

近年来强化学习中的策略梯度方法以其良好的收敛性能吸引了广泛的关注。研究了平均模型中的自然梯度算法,针对现有算法估计梯度时效率较低的问题,在梯度估计的值函数逼近中采...

下载此文

集体理性约束的Agent协作强化学习

[期刊论文] 作者：吴士泓,李德华,潘莹,, 来源：计算机工程与应用年份：2010

将多Agent协作学习过程看作是一个个的阶段博弈,针对博弈中存在多个均衡解的问题,提出一种集体理性约束下的多Agent协作强化学习算法。该算法使得系统中的每个Agent均按照集...

下载此文

基于强化学习的智能I/O调度算法

[期刊论文] 作者：李琼,郭御风,蒋艳凰,, 来源：计算机工程与科学年份：2010

强化学习作为一种以环境反馈作为输入、自适应环境的特殊的机器学习方法，能通过观测环境状态的变...

下载此文

基于模糊聚类的分层强化学习算法

[期刊论文] 作者：张欣,戴帅,, 来源：计算机工程与科学年份：2010

本文提出了一种新的分层强化学习Option自动生成算法，以Agent在学习初始阶段探测到的状态空间为输入，采用模糊逻辑神经元的网络进行聚类，在聚类后的各状态子集上通过经验回放学...

下载此文

灵宝市政协强化学习亮“新招”

[期刊论文] 作者：王宝学, 来源：协商论坛年份：2010

为强化学习提升机关工作人员素质，灵宝市政协近期开展一系列的学习、自查自纠、集中整改活动。首先，健全和完善各项制度，建立学习平台，给所有工作人员下学习任务。其次，实行“轮讲...

下载此文

基于实用推理的多智能体协作强化学习算法

[期刊论文] 作者：潘莹,李德华,梁京章,王俊英,, 来源：华中科技大学学报(自然科学版) 年份：2010

针对将单AgentQ-学习协作算法直接扩展到多Agent系统会导致状态-动作对集合的急剧膨胀、从而影响多Agent的协作学习速度的问题,提出了基于实用推理的多Agent协作强化学习算法...

下载此文

基于标签的强化学习推荐算法研究与应用

[期刊论文] 作者：李益群, 张文生, 杨柳, 刘琰琼,, 来源：计算机应用研究年份：2010

针对协同过滤推荐算法性能稳定性往往受到数据稀疏性影响的问题,在强化学习的框架下提出一种基于标签的协同过滤推荐算法,利用标签模拟用户兴趣来构造非稀疏的个性化数据,并...

下载此文

基于ILCS的多机器人强化学习策略

[期刊论文] 作者：邵杰,杜丽娟,杨静宇,, 来源：通信技术年份：2010

增强学习使机器人能发现一组用于指导其强化学习行为的规则。遗传算法则在现有的规则中淘汰掉较差的,并利用较优的种...

下载此文

看过本文同时还关注