深度确定性策略梯度(DDPG)相关论文
为提高车辆对行驶环境的自我学习和决策能力,提出了一种基于深度确定性策略梯度(DDPG)的车辆自主避撞决策控制模型。基于Markov决......
针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络......