论文部分内容阅读
提出了一种适合MMOG的强化学习算法,算法中NPC(Non PlayerCharacter)选择的策略是基于对其他NPC选择的策略的信任基础上,不同于现有的大部分算法是基于对行动的信任上。
该算法只记录NPC学习失败的情况,由于失败的情况要比成功的情况少很多,历史知识空间会显著降低,有效地提高了算法的效率;同时,该算法使用历史记录来对NPC学习的动作进行评估,进一步提高了算法的效率。最后,通过坦克大战游戏进行仿真,验证了这种学习算法是一种高效、快速的学习方法,并且该算法可以很好地适用于MMOG中NPC学习问题。