回报函数相关论文
当前疫情的爆发给人们的生活带来了极大的不便,而基于传感器技术和智能算法的移动机器人领域已经有了长足的发展,移动机器人已经可......
随着社会的进步和各国军事力量的不断提升,无人机集群将在民用和军用领域扮演着重要角色。无人机集群侦察监视在民用领域可用于环......
现有的基于Q学习的无人机航迹规划方法很少考虑无人机本身的航迹约束,导致规划获得的航迹的可用性较差。本文提出一种更有效的无人......
针对水而无人艇(USV)在复杂海洋环境下执行任务时需要用户进行干预的问题,本文提出了基于逆向强化学习的行为模仿学习方法.该方法......
回顾了基于回报函数逼近的学徒学习的发展历史,介绍了目前的主要工作,总结了学徒学习的一般方法,讨论了线性和非线性假设条件下的......
针对一种阈值分割算法很难对不同类型的图像进行有效地分割的问题,提出一种多阀值算法融合的方法.该方法通过不同的算法得到一组阈......
考虑一类带有分红过程的比例再保险模型,为推广其应用,将其费用函数进行了推广,利用随机分析中的最佳控制理论,求得其最佳控制策略及相......
综合分析了影响城市公共交通系统运行的多种因素,提出了一种新型的基于强化学习算法的城市公交信号优先控制策略.该策略利用强化学......
针对机器人足球比赛的多智能体环境下智能体的训练问题,提出了一种将模糊控制与Q-Learning相结合的学习方法,并在学习过程中自动调......
通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非......
随着空空导弹的不断发展,现代空战已经进入超视距空战时代。具备武器装备性能优势的一方,在接敌过程中大部分都倾向于避免“近身肉......
早、晚高峰期间城市交通拥堵已经成为一种普遍的现象,交叉口作为城市交通的关键节点,其运行效率对充分发挥路网性能、缓解城市交通......
在一类带分红过程比例再保险模型的基础上,把借贷过程这一因素考虑进去,构造了一新的包括分红过程和借贷过程的比例再保险模型.利......
随着移动互联网的逐步发展以及大数据时代的出现,当下的传统蜂窝网络已然达不到越发增长的数据量的需求,而以Femtocell基站为典型......
传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。......
阐述了军事智能博弈对抗的发展需求和概念内涵,分析了基于强化学习的博弈对抗特点,并针对智能博弈对抗过程存在的问题,提出了基于......
交通控制系统与诱导系统的协同可以实现两系统功能的互补,节约路网成本,促使交通系统的运行朝着有序高效的方向发展,而协同模式的......
在机器学习研究领域,对不平衡的数据建立分类模型一直都是难题,因为模型会偏向于多数类样本的特征,使少数类样本很难被识别。从数......
采用Q-学习算法实现了交通控制与诱导协同模式的在线选择。首先,采用Q-学习算法训练多智能体,根据多智能体内部的推理得到不同交通......
1问题的提出计算机辅助教学是信息技术影响数学教学的主要方式之一,凭借其直观、方便、存储量大等优点已经受到广泛的欢迎.所谓计......