论文部分内容阅读
半Markov决策过程(SMDP)是离散事件动态系统用于描述随机序贯决策问题的一类基本模型,其性能的分析和优化对许多现实系统具有重要的指导意义。在SMDP模型中,状态的转移概率和性能函数是影响系统性能的两个重要因素。然而实际应用中,由于建模上的困难和外界环境的干扰,系统的状态转移概率往往难以精确得知,系统的即时性能也可能因某些不确定参数的影响而产生波动。为适应这类不确定SMDP系统在最优控制上的需要,本文在性能势理论的基础上研究了一类受不确定参数影响的SMDP鲁棒控制问题,着重讨论参数极坏情况下使系统性能达到最优的鲁棒控制策略求解算法。根据嵌入链结构的不同,SMDP可划分为遍历链、单链和多链三种模型。本文从最简单的遍历链模型出发,首先给出不相关不确定参数下的求解最优鲁棒策略的策略迭代算法,并讨论了策略迭代的收敛性;对参数相关的情况,本文详细介绍了遗传算法在SMDP鲁棒控制过程中的应用。在一般的多链模型中,由于多个常返类和瞬态的存在,要求解其最优策略是相当困难的。通过一些假设性条件的限制,本文研究了平均准则下一类特殊多链SMDP的最优性方程,并给出了相应的策略迭代算法。考虑到系统状态数目的增加将导致优化时间过长,为提高效率,本文在参数相关的多链鲁棒控制过程中引入并行遗传算法,通过多个处理机上的协同寻优来加速搜索,文中我们还详细讨论了迁移算子的两种具体实现方式。由于单链结构是多链的一种特例,上述有关算法也可运用于解决单链SMDP的鲁棒控制问题。文章通过一些数值例子来说明相关算法的应用,并根据实验结果分析了各种鲁棒决策算法的优化效果。