基于强化学习的海克斯棋博弈算法研究与实现

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户:habits
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文旨在研究如何将强化学习模型合理地应用在海克斯棋博弈算法中,并给出程序实现方案。以蒙特卡洛树搜索生成数据集训练卷积神经网络的方式,使得模型能够在不断自我对弈的过程中,修正自身选择动作的策略,更新模型参数,从而达到提升棋力的目的。实验结果表明,通过强化学习算法能够准确地评估海克斯棋的局面,并有效地选择有利的落子位置,使得海克斯棋博弈系统获得高质量的决策能力。
其他文献
目前服装产业协同制造过程中存在参与主体众多且分散、很难建立起服装产业协同制造各方的信任关系等问题。针对这些问题,本文对服装产业协同制造业务场景进行调研,分析并总结
针对轮毂电机驱动汽车,本文建立了整车模型和差动助力转向系统模型,根据轮毂电机驱动汽车可以独立控制左右转向轮输出力矩的特性,通过控制汽车左右转向轮的差动力矩来实现减
毛主席纪念堂经过近20年的使用,由于屋面防水材料老化等原因,需进行维修。维修上层屋面和下檐天沟两大部位分别采取了相应的治理措施。维修实践证明,在设计时应仔细基层与温度变形
改革开放以来,找国建筑施工技术取得了突飞猛进的发展,已有一大批单项施工技术赶上或超过了发达国家,在总体上也正在接近发达国家水平。其中人工地基、基坑支护、大体积混凝土、
随着医疗技术和生物科技的快速发展,生物领域的大数据急剧膨胀,数据的快速、有效检索成为了至关重要的问题。本文针对疾病本体及其相关数据的检索问题,提出了基于疾病本体的
我院于2006年开始应用一次性胸腔闭式引流瓶对46例外伤性内出血患者进行血液回收,提高了血液利用率,减少了浪费,效果满意,得到外科医生的肯定。
癫痫是一种常见的神经系统疾病,影响着全世界近1%的人。越来越多的人认识到,采用癫痫发作预警的闭环治疗策略,可以在一定程度上控制癫痫的发作。本文主要基于Kaggle癫痫预测E
便秘是指大便秘结不通,排便间隔时间延长,粪便坚硬,排便坚涩不畅的一种病症。胸腰椎骨折早期常并发严重的腹胀和便秘,不仅增加患者的痛苦,而且延缓疾病的愈合。我院2004年10月~2007
当下互联网技术发展迅速,各项工作均在迈向信息化道路。2017年年末全国各地逐步地展开了监察体制改革工作,改革以来,通过对手机信息的提取、分析、整理,对案件的审查调查有着
城市轨道交通的进出站客流量具有较大的不确定性和复杂性,尤其是短期客流预测,一直是地铁客流预测中的一个研究热点和难点。AFC设备能准确读取刷卡数据,实现历史和实时进出站