论文部分内容阅读
本文研究了基于马尔科夫决策过程(Markov Decision Process, MDP)的时延敏感业务的跨层调度问题。在基于TDMA的多用户单业务调度系统中,用户通过竞争传输时隙来接入信道,调度器根据用户交互的期望传输速率决定时隙的最终使用权,被选用户则以一定速率发送数据。本文在计算用户期望传输速率时,重新分析值函数的数学性质,将批更新的学习算法应用在此系统。仿真结果表明,批更新算法可以满足所有用户的时延约束;同时,通过分段函数对值函数的数学逼近,只需几十个点的更新即可近似得到原来几百个点更新得到的结果,节省存储空间,提高了收敛速度。进一步地,本文在多用户系统中引入多业务。根据3GPP/3GPP2规定的四种业务的QoS要求,划分业务优先级,按照不同用户的时延限制、时变的信道特性以及缓冲区队列长度变化特点,给出一种多用户多业务的接入传输机制,并利用在线学习算法对其仿真。仿真表明用户的时延约束不同,其接入系数就不同;同样参数下,高优先级业务的时延性能要稍好于低优先级业务的时延性能。