论文部分内容阅读
关于Agent和多Agem系统的研究是一个生机勃勃的具有广泛参与面的研究领域。随着单Agent学习方法的研究成功,人们也将注意力投向了更为复杂的多Agent系统。在很多实际应用中,仅依靠单个智能体可能无法完成任务,或完成任务的效率很低,因此对多Agent系统的研究势在必行。但多Agent系统的内部组织结构远比单Agent复杂,且外部的任务环境更加动态化,所以对该领域的研究极具挑战性。
本文工作主要集中于Agent间的协作、协调和协商等问题,所要解决的问题是如何使Agem自主掌握与其他Agent交互的技巧,并同时兼顾自身利益和整体利益等问题。在随机对策的框架下,将激励学习与对策论相结合,使Agem通过对各种对策形势的学习自动掌握与其他Agent交互的技巧。在单Agent Q.学习和其他多Agent激励学习基础上提出了一种有效的激励学习算法,在方格世界和追踪领域的仿真实验表明该算法的高效性,且具有一定的通用性,同时将多Agent激励学习的研究从Markov环境扩展到非Markov环境中。进一步将量子搜索思想用于多Agent激励学习的状态空间和行为搜索上,寻求不同于传统行为选择方式的新途径,充分利用了量子叠加性,提高了多Agent激励学习的并行性,仿真实验显示这种量子搜索思想与多Agent激励学习结合的学习算法具有较好的收敛性,这为今后这方面更加深入的研究做了前期工作
本文利用Agent技术来研究我国电力市场中,发电公司在面对不同市场环境下的报价决策问题,提出了基于多Agent激励学习方法的电力报价策略方法,以此来确定最优的投标报价。