奖惩函数相关论文
随着互联网应用的普及和电子商务的发展,各种产品服务在为用户提供选择的同时,其内容也变得越来越复杂,用户经常迷失于大量的物品......
为了解决传统深度强化学习在室内未知环境下移动机器人路径规划中存在探索能力差和环境状态空间奖励稀疏的问题,提出了一种基于深......
该文对基于多代理的敏捷制造单元的控制结构进行了分析,深入研究了单元内管理代理、任务代理、资源代理的控制功能和运作流程,总结......
介绍了强化学习和分布式Q学习的基本思想,并将分布式Q学习应用到区域交通协调控制中,通过对其进行研究和分析,提出一种适合于区域交通......
委托代理本身存在诸多信息不对称、不确定的因素和风险,委托代理双方必须考虑风险的控制和利益的平衡.基于委托人拟支付代理人的工资......
为了解决航路交叉口的交通压力问题,针对交叉口位置的空中交通排序展开研究,把Q-learning与Agent联系起来作为解决该问题的技术手......
期刊
对于单机动态调度问题十分有效的Q学习,在多机动态调度环境下却由于缺乏全局眼光而效果欠佳,因此提出了一种双层Q学习算法.底层Q学习......
论文的研究工作是以某烟厂中央空调控制系统研究工程为背景展开的。中央空调系统是智能建筑重要组成部分,是一个典型的多输入多输......