论文部分内容阅读
随着Internet的飞速发展,用户数量迅速增加,新的网络应用不断涌现,使得网络流量急剧增加,由此引发的网络拥塞已经成为制约网络发展和应用的瓶颈问题。信息拥塞是影响网络服务质量(QoS)的主要原因。因此,有效地解决拥塞问题对于提高网络性能具有重要意义。网络系统本身存在的时变性和不确定性等因素导致网络是一个复杂的大系统,数学模型的复杂性和精确性往往难以满足网络的实时需求。因此需要设计基于学习思想的拥塞控制算法,以便获得更好的拥塞控制效果。强化学习方法不依赖于被控对象的数学模型和先验知识,而是通过试错和与环境的不断交互获得知识,从而改进行为策略,具有自学习的能力。对于网络这种复杂的时变系统,强化学习是一种理想的选择。鉴于此,本文基于强化学习理论提出了几种拥塞控制算法以解决网络的拥塞控制问题。主要工作概括如下:针对单瓶颈ATM网络的拥塞控制问题,基于强化学习理论中的自适应启发评价方法设计了分层的强化学习ABR流量控制器。控制器的动作选择单元利用分层机制,分别基于缓冲区中队列长度和信元丢失率进行控制。ABR发送速率通过对两个子单元的输出利用加权求和得到。然后,基于模拟退火算法设计了控制器的参数学习过程,加快了学习速度,避免了可能存在的局部极值问题。针对含有两个瓶颈节点的ATM网络的拥塞控制问题,基于强化学习理论中的Q-学习思想设计了Q-学习ABR流量控制器。控制器在网络模型参数未知的情况下,通过Q-函数的设计,将寻找最优控制策略的问题转化为寻找一个最优H矩阵的问题。基于递归最小二乘算法实现了H矩阵的学习,进而得到了使网络性能指标最优的控制策略。针对TCP网络的拥塞控制问题,基于强化学习理论中的Q-学习方法设计了主动队列管理算法。控制器学习TCP网络中状态-动作对所对应的Q-函数值,并利用反映了Q-函数值与当前网络状态联系紧密程度的可信度值来调节学习率。然后,利用状态空间变换的思想对状态空间进行了简化。基于Metropolis规则改进了动作选择策略,实现了对未知空间探索和对已有知识完善两种策略的平衡。其次,基于合作奖赏值将所设计的控制器应用于含有多瓶颈节点的网络环境。针对TCP网络中连续的状态空间,基于模糊Q-学习方法设计了主动队列管理算法。学习过程中学习单元所选择的动作以及对应的Q-函数值都是通过模糊推理得到的。然后,利用遗传算法对每条模糊规则的后件部分进行优化,得到适合于每条模糊规则的最优动作。针对网络中存在非合作用户的问题,基于Nash Q-学习方法设计了流量控制器。针对不同业务以及同类业务的不同QoS要求,基于价格机制,制定了不同的价格标准,并应用于奖赏值的计算中。学习单元通过选择符合Nash平衡条件的Q-函数值进行学习。各用户选择的数据发送速率能够在使网络整体性能达到最优的情况下,使各个用户也获得尽可能高的利益。针对网络的路由选择问题,首先设计了双度量Q-Routing路由算法。将数据包传输时间和路径代价分别作为Q-函数值进行学习,并通过调节考虑两个度量的权重影响路由选择的结果。其次,设计了基于记忆的Q-学习路由算法。路径所对应的Q-函数值通过学习反映网络的状态信息。学习单元通过记忆曾经学习到的最优Q-函数值和曾经发生拥塞路径的恢复速率预测网络流量趋势,进而决定路由策略的选择。