Gittins指数相关论文
本文研究的对象是Bandit抽样过程,它包括两个基本模型:Bandit报酬过程和Bandit目标过程。Gittins对基于常见分布的Bandit抽样过程进......
应用贝叶斯方法,对未知Bandit报酬过程的抽样报酬基于Erlang(k)分布的单臂Erlang(k)Bandit报酬过程提出计算描述最优选择的平衡值序列的......
研究了红蓝攻防对抗中的射击策略优化问题,即研究红方面对多个蓝方目标,如何射击能获得最大收益的问题.基于以往研究的局限性,为平......
本文的主要目的是拓展具有指数策略的multi-armed bandit (MAB)随机调度模型,使之更符合复杂的现实背景:(1)诸arm具有不同的切换限......