基于深度学习的非完备信息博弈对手建模的研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户：gjj19901005

【摘要】

：

【作者】

：

王松

【机构】

：

南昌大学

【出处】

：

南昌大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

长期以来,博弈问题都是人工智能研究者的关注重点。随着人工智能技术的快速发展,很多完备信息博弈问题（例如围棋、国际象棋等）通过博弈树搜索技术已经取得卓越的成果。目前,非完备信息博弈问题也成为了博弈研究的关注对象。与完备信息博弈不同,非完备信息博弈的参与者无法观察到全部的状态信息,单纯的博弈树在拓展过程中存在大量不确定因素难以进行下去,所以非完备信息博弈问题单靠搜索技术不能得到很好的解决,参与者需要针对对手的隐藏信息进行有效的预测。因此,对手建模成为了解决非完备信息博弈的不可观测信息问题的重要方法。对手建模的作用是通过可观察到的对手信息对不可知的信息进行预测,将对手建模对未知信息的预测与非完备信息博弈树搜索等技术相结合,得出对自己收益最大的决策。本文基于麻将博弈问题,描述了一种利用深度学习技术和监督学习理论构建麻将对手信息预测的网络模型,并用于两个重要的对手隐藏信息预测任务中,分别是危险牌（可被对手吃碰的牌）预测和对手手牌分布估计。具体的研究工作如下:1.设计了一种高效的状态编码方法来完整地描述当前及历史状态信息。对整个博弈过程的对战信息进行特征抽取,形成牌面信息特征、对手动作特征和其他特征,并将其编码成多通道的张量,作为网络模型的输入。这种不依靠麻将领域知识进行信息压缩的状态空间编码方式简单易操作,完全不需要传统特征工程中繁杂的特征组合,而且十分适合卷积神经网络进行表征学习。2.提出了一种CNN+LSTM和注意力机制的网络架构进行麻将博弈的对手建模。将博弈数据进行高效特征编码,利用CNN的空间表征能力学习牌面信息的语义关系,利用LSTM结构结合注意力机制学习对手的历史动作与隐藏信息的内在联系。然后构建危险牌（能被对手吃碰的牌）预测模型和对手手牌分布估计模型。将危险牌预测任务理解成多标签分类问题,采用Focal Loss损失函数解决标签分布不平衡问题,并使用F1值和AUC值评估预测效果。对手手牌分布估计任务的目标是得到麻将的每种牌在对手手牌中的数量占比（其结果是和为1的34维向量）,采用麻将领域知识加入先验特征提升预测性能,并使用MSE和KL散度作为模型的损失函数进行效果对比。最后,通过对比实验表明,本文提出网络模型在相同测试集上的预测效果高于其他对手信息预测模型。3.将这两个对手预测任务的结果集成到博弈树中,辅助麻将AI程序进行出牌决策。实验表明,集成了本文提出的对手模型的博弈树决策程序在胜率和喂牌率上的效果都好于无对手模型的决策程序和其他对手模型的决策程序。

其他文献

基于深度学习的中文人物关系抽取模型研究与应用

实体关系抽取是自然语言处理领域的一个重要下游任务,其中人物之间的关系抽取任务是实体关系抽取中的典型任务。对语料中的人物关系进行识别和抽取,可以为构建人物社会关系网、生成用户画像以及搭建专家推荐系统提供帮助和支持。针对中文语料人物关系抽取这一课题,本文在分析了人物关系抽取的研究背景、研究现状以及相关技术之后,从标注数据集预处理,再到使用深度学习网络模型完成了中文语料人物关系抽取任务,最后搭建了一个人

学位

基于区块链的农产品检测LIMS系统设计与开发

保障农产品质量安全已成为最基本的民生福祉之一,农产品质量检测是其中的关键一步。然而当前的农产品检测LIMS（Laboratory Information Management System）系统无法保证检测数据的安全性和可溯源性,无法满足社会公众对农产品质量安全检测的需求。而区块链技术具有不可篡改、可溯源、去中心化等特点,能够充分解决以上问题。因此,本文在农产品检测LIMS系统中引入了区块链技术,

学位

基于深度学习的高分辨率遥感图像目标检测方法研究

随着计算机技术和国家航天航空事业的发展,一颗颗遥感卫星相继投射空中,遥感图像的分辨率越来越高,也愈发清晰,遥感图像中包含的地表信息不仅能运用于林业、农业、水利等民用领域,还能应用于军事国防领域。目前的目标检测技术在自然图像检测中取得了很好的成果,但在遥感图像方面表现欠佳,这是因为遥感图像本身分辨率很高,图中的关键目标尺寸极小并且多方向密集分布,而背景信息十分冗杂并遍及全图范围,导致在使用传统方式进

学位

基于卷积神经网络的幽门螺杆菌识别分类研究与应用

幽门螺杆菌（Helicobacter Pylori,HP）感染能引发多种胃部疾病,其发病率非常高,感染人数逐年增加。如果能及时杀灭根除HP,可有效阻止胃黏膜炎症和胃萎缩,更好的预防和控制胃癌的发生。在临床中,幽门螺杆菌感染者病情极容易反复,治疗起来非常困难。传统检测方法存在外界影响因素多,检测方式复杂,病人依从性低的局限性。内镜医生依据丰富的临床经验可通过胃部内窥镜图像判断HP感染,但仅靠医生判断

学位

基于卷积神经网络的PD-L1检测评分的研究

癌症是影响我国居民健康的主要疾病之一,免疫治疗的发展为癌症患者带来了更多的希望。PD-L1是判断癌症患者是否适宜于免疫治疗的关键生物标志物,所以对PD-L1表达程度的量化在医学领域有着非常重要的研究意义。目前对PD-L1表达程度的量化是通过病理学家直接在显微镜下观察再进行评估的,但人工评分效率低而且主观性较强。为解决以上问题,本文分别对非小细胞肺癌和食管癌两组数据设计了两种基于卷积神经网络的深度学

学位

基于深度学习的肺结节图像分割算法研究

在医学影像中,肺癌多表现为形状不规则、边缘模糊的结节病灶。借助医学影像区分良性和恶性肺结节并及时制定诊疗方案,是防止病灶恶化、提高治愈率的关键手段。从肺部CT影像中分割出结节病灶可以为肺肿瘤的诊断提供重要参考。近年来,深度学习在医学图像处理中的研究越来越深入,在器官病灶分割的任务中比传统图像分割方法适应性更强、效率更高,但仍存在精度不高的问题。研究以此为背景,构建了针对CT图像中肺结节分割的深度学

学位

基于近邻密度的自适应谱聚类算法研究及其在入侵检测系统中的应用

谱聚类是一种高质量、适应性强的的聚类分析算法,有良好的理论基础,已被广泛应用于文本分析、图像分割及入侵检测等多个领域。然而,谱聚类在聚类时对高斯核参数灵敏并且要人工输入聚类数目,使得算法有一定局限性。本文针对高斯核参数灵敏问题和人工输入聚类数目问题进行研究,提出能自适应获取高斯核参数和最佳聚类数的谱聚类算法,并将该算法应用于入侵检测系统的初级报警数据聚类分析处理。主要研究工作和成果包括:（1）提出

学位

结合谱聚类和季节函数的农产品协同过滤推荐算法研究及应用

研究有效精准进行农产品推荐的方法是有意义的,也是有重要应用价值的。有效的农产品推荐平台能更好帮助农产品种植户销售农产品,更好服务消费者挑选到既合适又满意的农产品,更好服务于国家的乡村振兴战略和农业数字化建设,结合农产品自身具有的特征,本文对基于用户的协同过滤推荐算法进行优化研究,旨在提升农产品推荐效果。主要研究内容如下:（1）应用谱聚类技术优化农产品推荐效果。针对农产品市场中应用协同过滤推荐算法存

学位

基于深度学习的3DMRI脑胶质瘤分割方法研究

脑胶质瘤是一种具有高发病率和高致死率的原发性脑肿瘤,它对人类的生命和健康会造成极大的危害。当前,基于核磁共振图像的脑胶质瘤分割可以帮助医师观察和分析脑胶质瘤的外部形态,从而进行诊断治疗;然而,脑胶质瘤具有高异质性,其多模态MRI（magnetic resonance imaging）脑影像呈现出灰度不均匀、形状不规则等特点,并且脑胶质瘤的数据样本不平衡是一个长期需要解决的问题。因此,开发准确率较高

学位

基于知识图谱的个性化习题推荐系统的研究与应用

随着人类社会的高速发展,互联网的应用已渗透社会生活的方方面面,包括政府、社区、交通、餐饮娱乐、教育等。为了加快信息化时代的到来和满足人类的个性化需求,人工智能技术包括知识图谱、推荐算法、深度学习等研究亦在如火如荼的发展。近年来,为了减轻中小学学生学习负担,响应“德智体美劳全面发展”的号召,国务院推行出“双减政策”,明确提出要全面压减作业总量和时长,和全面规范校外培训行为。因此,在这样的大环境下,设

学位

基于深度学习的非完备信息博弈对手建模的研究

与本文相关的学术论文