回报函数相关硕士博士期刊学术论文

回报函数相关论文

移动机器人全覆盖路径规划算法研究

当前疫情的爆发给人们的生活带来了极大的不便,而基于传感器技术和智能算法的移动机器人领域已经有了长足的发展,移动机器人已经可......

学位

移动机器人全覆盖路径规划深度强化学习回报函数

面向无人机集群自主协同侦察的深度强化学习方法研究

随着社会的进步和各国军事力量的不断提升,无人机集群将在民用和军用领域扮演着重要角色。无人机集群侦察监视在民用领域可用于环......

学位

深度强化学习双向协调网络 MADDPG 回报函数 MPOMDP

基于Q学习的无人机三维航迹规划

现有的基于Q学习的无人机航迹规划方法很少考虑无人机本身的航迹约束，导致规划获得的航迹的可用性较差。本文提出一种更有效的无人......

会议

无人机航迹规划 Q学习回报函数

基于强化学习的水面无人艇危险规避方法

针对水而无人艇(USV)在复杂海洋环境下执行任务时需要用户进行干预的问题,本文提出了基于逆向强化学习的行为模仿学习方法.该方法......

会议

水面无人艇危险规避专家示教模仿学习逆向强化学习回报函数

多约束复杂环境下UAV航迹规划策略自学习方法

传统的无人飞行器航迹规划搜索算法虽然具有很强的路径搜索能力，但面临新的规划任务或飞行环境时，无法从历史经验中获得先验知识并加......

学位

多约束复杂环境 UAV 航迹规划规划策略强化学习策略网络泛化能力回报函数约束条件样本数据设计

基于回报函数逼近的学徒学习综述

回顾了基于回报函数逼近的学徒学习的发展历史,介绍了目前的主要工作,总结了学徒学习的一般方法,讨论了线性和非线性假设条件下的......

期刊

学徒学徒学习回报回报函数函数逼近综述逆向增强学习边际最大化策略函数函数

基于多阈值算法融合的图像分割

针对一种阈值分割算法很难对不同类型的图像进行有效地分割的问题,提出一种多阀值算法融合的方法.该方法通过不同的算法得到一组阈......

期刊

图像分割阈值算法融合回报函数 image segmentation threshold algorithm fusion reward function

带有分红过程的比例再保险最佳控制模型之推广

考虑一类带有分红过程的比例再保险模型，为推广其应用，将其费用函数进行了推广，利用随机分析中的最佳控制理论，求得其最佳控制策略及相......

期刊

随机控制分红过程最佳控制策略回报函数 stochastic control dividend process optimal control polic

基于强化学习算法的公交信号优先策略

综合分析了影响城市公共交通系统运行的多种因素,提出了一种新型的基于强化学习算法的城市公交信号优先控制策略.该策略利用强化学......

期刊

公交系统交通信号控制公交信号优先强化学习回报函数 transit system traffic signal control transit sig

基于Q-Learning的智能体训练

针对机器人足球比赛的多智能体环境下智能体的训练问题,提出了一种将模糊控制与Q-Learning相结合的学习方法,并在学习过程中自动调......

期刊

Q-LEARNING 模糊控制回报函数 Q-Learning fuzzy control reward function

回报函数学习的学徒学习综述

通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作，概述了基于回报函数学习的学徒学习方法．分别在回报函数为线性和非......

期刊

学徒学习回报函数逆向增强学习最大化边际规划 apprenticeship learning reward function inverse reinf

基于多智能体强化学习的超视距空战决策方法研究

随着空空导弹的不断发展,现代空战已经进入超视距空战时代。具备武器装备性能优势的一方,在接敌过程中大部分都倾向于避免“近身肉......

学位

强化学习超视距空战决策多智能体 POMDP MADDPG 回报函数

城市单点交叉口信号配时优化研究

早、晚高峰期间城市交通拥堵已经成为一种普遍的现象,交叉口作为城市交通的关键节点,其运行效率对充分发挥路网性能、缓解城市交通......

学位

交通拥堵单交叉口 Q学习回报函数价值评估函数

考虑借贷过程的比例再保险最优控制模型

在一类带分红过程比例再保险模型的基础上,把借贷过程这一因素考虑进去,构造了一新的包括分红过程和借贷过程的比例再保险模型.利......

期刊

随机控制借贷过程布朗运动期望最优控制策略回报函数 stochastic control borrowing process Brownian moti

强化学习及其在Femtocell网络干扰管理中的应用

随着移动互联网的逐步发展以及大数据时代的出现,当下的传统蜂窝网络已然达不到越发增长的数据量的需求,而以Femtocell基站为典型......

学位

强化学习 Femtocell双层网络干扰管理回报函数专家系统

基于RDC-Q学习算法的移动机器人路径规划

传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。......

期刊

路径规划移动机器人强化学习 Q学习算法回报函数学习效率

基于深度强化学习的智能博弈对抗关键技术

阐述了军事智能博弈对抗的发展需求和概念内涵,分析了基于强化学习的博弈对抗特点,并针对智能博弈对抗过程存在的问题,提出了基于......

期刊

智能体回报函数学习过程分层强化学习强化学习方法指挥决策决策模型决策思维过程建模方法强化学习算法

基于多智能体和Q-学习的交通控制与诱导协同方法研究

交通控制系统与诱导系统的协同可以实现两系统功能的互补,节约路网成本,促使交通系统的运行朝着有序高效的方向发展,而协同模式的......

学位

交通控制系统交通诱导系统协同协同模式选择 Q-学习回报函数

深度增强学习在不平衡分类上的研究

在机器学习研究领域,对不平衡的数据建立分类模型一直都是难题,因为模型会偏向于多数类样本的特征,使少数类样本很难被识别。从数......

学位

深度增强学习不平衡分类分类策略回报函数

强化学习算法中启发式回报函数的设计及其收敛性分析

回报函数设计的好与坏对学习系统性能有着重要作用,按回报值在状态-动作空间中的分布情况,将回报函数的构建分为两种形式:密集函数......

期刊

强化学习回报函数马尔可夫决策过策略收效性

基于Q-学习算法的交通控制与诱导协同模式的在线选择

采用Q-学习算法实现了交通控制与诱导协同模式的在线选择。首先,采用Q-学习算法训练多智能体,根据多智能体内部的推理得到不同交通......

期刊

交通运输工程交通控制与诱导协同模式选择 Q-学习算法回报函数

一则计算机辅助数学探究的教学案例及其思考

1问题的提出计算机辅助教学是信息技术影响数学教学的主要方式之一,凭借其直观、方便、存储量大等优点已经受到广泛的欢迎.所谓计......

期刊

函数模型数学探究对数函数教学案例指数函数增长差异幂函数基本函数回报函数

试论基于强化学习的无线网络智能接入控制技术

随着信息技术的不断发展,无线网络得到了非常广泛的应用,为人们的工作和生活带来了极大的便利。但是无线网络中存在大量的复杂异构......

期刊

接入控制强化学习算法无线网络连接网络智能回报函数

看过本文同时还关注