搜索与赵沛尧相关的论文 - 搜论网

搜索筛选:

搜索耗时1.5197秒,为你在为你在102,285,761篇论文里面共找到 1 篇相符的论文内容

类型:

全部期刊学位会议报纸英文

发布年度:

全部 2024 2023 2022 2021 2020 2019 2018 2017 2016 2015 2014 2013 2012 2011 2010 2009 2008 2007 2006 2005 2004 2003 更早

排序方式:

相关性最新发表最早发表

基于动态优先级的奖励优化模型

[期刊论文] 作者：赵沛尧,黄蔚, 来源：郑州大学学报（理学版）年份：2022

传统的约束马尔可夫决策过程(constrained Markov decision process,CMDP)模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境.为了解决这一问题,提出一种基于CMDP的改进算法CRODP,与强化学习(reinforcement learning,RL)算法结合,将带约束......

下载此文

相关搜索：

看过本文同时还关注