【摘 要】
:
估值函数和回报函数是非完备信息博弈中的重要组成部分,估值函数对博弈中的不同策略进行评估,通过评估的结果来判断策略的优良。回报函数是对采取的策略获得的收益进行评估,通过评估的结果来判断系统是应该受到惩罚还是奖励。机器博弈主要任务就是运用深度学习,强化学习等算法来帮助智能体分析当前的局势和未来的局势,选择最佳的步骤。近些年来,机器博弈技术的发展已经能基本满足完备信息博弈中的技术要求,但是对非完备信息博
【基金项目】
:
江苏省重点研发计划(社会发展)项目,基于移动物联网和大数据挖掘的全民健身和体育竞技场馆信息服务系统及应用示范(BE2016778); 江苏省重点研发计划(社会发展)项目,基于多无人机自组织感知和视频深度挖掘的露天安全生产监控系统研发及应用示范(BE2019739);
论文部分内容阅读
估值函数和回报函数是非完备信息博弈中的重要组成部分,估值函数对博弈中的不同策略进行评估,通过评估的结果来判断策略的优良。回报函数是对采取的策略获得的收益进行评估,通过评估的结果来判断系统是应该受到惩罚还是奖励。机器博弈主要任务就是运用深度学习,强化学习等算法来帮助智能体分析当前的局势和未来的局势,选择最佳的步骤。近些年来,机器博弈技术的发展已经能基本满足完备信息博弈中的技术要求,但是对非完备信息博弈的研究还有待开拓。本论文以非完备信息博弈为研究目标,首先设计一种基于深度残差网络的估值函数,再设计一种基于蒙特卡洛树搜索的回报函数。本论文的工作创新主要体验在以下三个方面:(1)在传统的机器博弈之中,深度神经网络一般同来预测对手的动作,本文在原始的卷积神经网络基础上,改进了深度神经网络估值算法的模型,利用深度残差网络来训练该模型,进一步学习专家的博弈策略并为自己的动作做参考以此来预测博弈中对手的行为。(2)分析蒙特卡洛树搜索算法在非完备信息机器博弈中的瓶颈。在非完备信息博弈中,由于计算时间的缺乏,导致模拟评估的数量相对较少,根节点的子节点访问次数太少,根本无法反映出相应的收益分布。所以该算法直接运用广度优先算法先生成根节点的子节点,然后对于每一个子节点进行K次蒙特卡洛模拟评估来处理节点的收益分布的非确定性。实验证明,该算法能够较好的解决模拟次数过少导致随机性过强的问题。所以提出广度优先初始化算法。(3)非完备信息机器博弈中,因为时间和空间的原因,在未知的情况下无法扩展整个博弈树去获得最优的结果。通过复用前一回合的搜索树,然后对于之前回合的数据进行衰减或者重置。通过这种搜索树复用的方式弥补了因为时间过少导致模拟评估数量较少的缺点。同时通过衰减来消除之前过时数据对现在的影响。针对上述问题提出一种搜索树复用的蒙特卡洛树搜索的回报函数。
其他文献
中国当代抒情现实主义油画画家中,何多苓的代表地位是毋庸置疑的,他的绘画作品中所蕴含的诗意语言和哲学性思维等打破了传统油画作品创作的框架。在西方现代美术潮流的猛烈冲击下,国内美术界急需在潮流中找准自己,在这条荆棘丛生的艺术之路上,何多苓从探索学习绘画,再到后来尝试在西方传统技法中融入了中国画中的“写意精神”,使得何多苓绘画艺术达到一种天人合一和孤独神秘的境界,中国画“笔墨趣味”在他创作中的运用,使得
“荒诞”作为一种带有批判的哲学意识,出现在第二次世界大战之后。在后现代主义思潮中常被用来表述个体与世界的割裂关系,并且由荒诞主义文学逐渐延续到戏剧、电影等艺术手法中。虽然绘画中的荒诞内核并未被系统性归纳,但作为一种审美特征在早期中西方绘画中就有所体现。随着社会形态的改变和技术的革新,荒诞在绘画中的表现形式也逐渐多样。如今,图像的泛滥为艺术家提供了表达的契机,如何用绘画艺术这一形式抵抗碎片化的无效信
行人再识别,即行人检索,是一项利用机器学习算法从大量视频监控数据中检索给定行人的技术。向行人再识别系统中输入若干张行人图像,通过精心设计的算法搜索不同摄像头拍摄的相同行人。与行人跟踪、行人检测等计算机视觉技术相结合,行人再识别可以很好的解决大型摄像头网络的视域局限性,在智能视频分析、智慧公安、智能寻人等领域进行大范围应用。由于监控设备间往往具有一定的差异性,同时行人并不是一个固定的刚体,外观易受衣
人类文明至今从未脱离过符号,绘画符号被作为解读和构建绘画含义的重要工具,叙事作为符号学的一个重要分支,强调了符号与叙事两者之间的紧密联系,这使得绘画的叙事表达可以不必过多的依赖于繁琐的情节刻画,而是加强对于符号的运用。本论文先是从符号学和符号叙述学的角度分别简述了符号与叙事的定义,后结合绘画作品分析了绘画中的符号呈现和绘画中的叙事表达。利用符号叙事的相关概念分析绘画中符号与叙事之间的关系,结合对于
干旱地区由于水资源的缺乏,采用城市污水再利用的方式灌溉农田以缓解农业用水紧张问题,导致污水中的污染物如重金属进入土壤,造成农田耕地的污染。为了缓解污灌区重金属的污染问题,在采用潜在生态风险法(The Potential Ecological Rick Index,RI)对小店污灌区内的重金属污染情况进行评估的基础上,选取了太原市小店污灌区内长年生长的植物类型,结合功能菌,通过分析修复前后不同植物类
现实世界中的许多复杂系统可以表示为网络,例如社交网络、生物分子网络等,网络分析对于理解复杂系统的内部机制具有重要意义。作为网络分析的重要内容,社区发现引起了各行业研究人员的广泛关注,如何提高社区发现的效率和准确度是一个巨大的挑战。网络嵌入方法可以学习网络顶点潜在的低维表示,并且保留网络结构、顶点特征等信息,已被广泛应用于社区发现任务,但是仍然存在社区数目未知、准确度有待进一步提高等问题。本文使用两
如今,随机数在算法、仿真与计算机科学等领域发挥着举足轻重的作用,所以如何生成高速率、性能优越的随机数成为了非常重要的科学问题。目前利用计算机产生的随机数,由给定的算法和种子确定。尽管输出的随机数序列能够通过各种随机性检测程序,但原则上该类随机数是可以被预测的,被称为是伪随机数。随着量子信息技术的发展,我们发现可以通过量子力学所具有的内在不确定性来生成量子随机数,这种方案被称为量子随机数发生器(Qu
在如今大多事物均以增长和效率为衡量尺度的商业社会,似乎只有在资本加持下的各式“点子”才能让艺术多少显得现代。但即便在这样的大环境中,还是有一群画家仍能以“才华”和“技艺”向世人显示:“任何人能做的任何东西,绘画都能做的更好”,同时抓住了“转瞬即逝”与“永恒不变”的伟恩·第伯与阿历克斯·卡茨显然位列其中。本文旨在以“消费文化”为切入点,论述两位画家职业生涯中存在涉及本文主题的相关绘画。论文主体章节从
5G已进入大规模商用化部署阶段,但5G无线网络规划设计在新频谱、新空口、新业务、新场景、新架构等方面仍存在巨大挑战。因此,基于以上背景,需强化对5G网络的规划研究,最终为5G实际商用部署提供理论依据。本文重点研究5G无线网络的规划设计理论,并应用规划设计理论对菏泽地区5G无线网络进行工程设计,最终分析测试结果表明所设计的5G无线网络可以达到建网目标。本文主要工作有:一、为深入探讨研究菏泽市5G无线