搜索筛选:
搜索耗时1.5197秒,为你在为你在102,285,761篇论文里面共找到 1 篇相符的论文内容
类      型:
[期刊论文] 作者:赵沛尧,黄蔚, 来源:郑州大学学报(理学版) 年份:2022
传统的约束马尔可夫决策过程(constrained Markov decision process,CMDP)模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境.为了解决这一问题,提出一种基于CMDP的改进算法CRODP,与强化学习(reinforcement learning,RL)算法结合,将带约束......
相关搜索: