论文部分内容阅读
自二十世纪初,博弈论的理论体系建立以后,它获得了巨大的发展。并且,博弈论被广泛应用到了军事,经济,政治科学等领域。Nash均衡点是博弈论中一个非常重要的概念。Nash均衡点意味着,在收益最大化的假设下,每一个理性的参与者都不会有单独改变策略的冲动。博弈学习理论为Nash均衡点的产生或选择提供了一种较为符合实际的解释。详细地讲,Nash均衡点是有限理性的参与者为了达到最优,后悔最小或满意等目标,随着时间的逐步推移,利用自己所收集的信息进行策略或动作调整的长期结果。本文将对博弈学习理论中的若干问题进行讨论。第一章给出了关于博弈论,Nash均衡点,以及博弈学习理论的必要知识,并介绍了本文研究所涉及的主要问题。齐次噪音下的自适应学习过程可从数学上抽象为由随机扰动生成的不可约Markov链。第二章应用大偏差理论来分析,当随机扰动趋于零时,带随机扰动的Markov链的次极限行为或中期行为。通过将相应无扰动Markov链的极限点集迭代划分为不同阶的圈,本章研究了,当随机噪音趋于消失时,带随机扰动的Markov链在各个极限点之间进行遍历的最可能的次序,以及随机稳定均衡点的选择问题。第三章考虑了,一个对称博弈在多个位置同时进行的自适应学习过程。其中,每个位置中的期望水平依赖于其他可以观察到位置的平均表现。对这样的分散化信息结构,学习过程将收敛。对一大类的分散化信息结构和博弈,当期望水平的形成存在随机扰动时,Pareto最优的对称策略组将出现在唯一的随机稳定均衡点中。对囚徒困境,如果随机扰动发生的概率非常小,每个位置中的参与者将在大部分的时间里,都采用合作的策略。第四章为结论,简单总结了一下本文的工作,并讨论了未来可能的研究方向。