面向游戏操控行为模仿的强化学习方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lgyangell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,很多在游戏环境中开发的AI大放异彩,游戏为AI提供了检验模型的环境,而AI的成功又反过来带动游戏的发展,它们之间可以形成一种相辅相成的关系。模仿学习方法对给出的专家轨迹进行学习,因此它的可迁移性很高,通过在游戏中研究模仿学习获得进展后可方便的应用到其他领域。本文在基于图像的手游环境中研究了模仿学习的应用及改进方法,主要工作包含以下方面:(1)对于生成对抗模仿学习方法样本利用率低的问题,提出使用基于Q学习的柔性演员-批评家(Soft Actor-Critic,SAC)算法对其改进,并推导出了SAC在生成对抗模仿学习算法(Generative Adversarial Imitation Learning,GAIL)中的应用方法。原始GAIL算法的策略迭代通过对价值函数进行估计,导致它不能使用离轨策略的经验回放技巧来提高样本利用率。同时,基于最大熵的能量模型策略使得策略提升更稳定且更具鲁棒性。(2)提出一种专家轨迹指导策略搜索的方法,在模仿学习中,专家轨迹被直接给出。由于本文改进了GAIL算法为离轨策略方法,可通过经验回放对策略进行训练,因此在经验回放池中加入专家轨迹。可以提高智能体的探索效率,同时也提高了算法的稳定性。(3)提出一种针对手游环境的图像特征提取模型,在视觉转换器(Vision Transformer,Vi T)的基础上,嵌入了卷积网络特征和变分自编码器特征。它们分别帮助模型提取局部特征和隐式特征,与Vi T的全局特征提取能力形成互补。并考虑手游环境的特殊性,在尽量小的影响下替换掉其原始图像块,使得模型能够通过微调迁移得到。最后,以天天酷跑游戏作为实验环境,验证了本文提出方法的有效性。
其他文献
近年来,以深度神经网络为代表的目标检测算法计算量需求呈指数级增长,在广泛领域部署至终端的需求与日俱增,却又难以在性能受限的嵌入式平台进行实时部署。而科研常用的AI平台主要产自国外,存在核心技术和关键领域被“卡脖子”的现象,应用研发中也有信息安全隐患。因此,面向国产智能平台进行目标检测算法的应用研究具有重大意义。本文工作主要从以下方面进行展开:1.针对基于国产芯片的智能处理平台的开发需求,设计了智能
学位
相比于定焦透镜,变焦透镜具有更强的灵活性及适应性,广泛应用于现代微光学系统、光通信系统、航空航天和军事行动等领域。随着光学技术的飞速发展,通过改变透镜组的相对位置实现变焦功能的传统机械变焦镜头已逐渐不能满足现代光学系统对镜头微型化、集成化日益增长的需求。而液态透镜具有结构紧凑、易集成、无机械磨损、控制灵活等优点,成为近些年的研究热点。然而,相比于常用的轴对称球面透镜,对于在光束整形领域不可或缺的柱
学位
域名是互联网关键基础资源,在整个网络体系中具有重要地位。然而涉及色情、赌博、诈骗等非法网站的恶意域名不仅给整个互联环境带来了危害,而且严重威胁着网络用户的隐私及财产安全。其中在线视频作为恶意域名的传播载体以内嵌的方式包含恶意域名信息,在用户观看在线视频时,其以字幕形式呈现的恶意域名信息会诱导观看者访问恶意域名站点从而产生危害。由于在线视频内容检测难度较大,使得恶意域名的传播更具隐蔽性而难以被有效管
学位
我国石漠化主要集中在西南地区,石漠化是由于自然因素与人类不合理开发利用导致的岩石裸露,石漠化直接造成了区域水土流失加剧、生态系统功能退化、河流、湖泊、水库淤塞等一系列生态环境问题。20世纪80年代以来,气候逐渐变暖,人类活动加强与不合理开发利用,导致滑坡与泥石流等自然灾害频发。以往的研究中多采用单一指标法、综合指标评价法和影像分类法对石漠化的空间分布进行监测,忽视了石漠化的各种影响因素及其相互间作
学位
耽美文化是一种发源于外国,热衷于描绘男性之间情感的亚文化。耽美亚文化于上世纪九十年代传入我国,早期随着网络技术的快速发展,耽美亚文化在网络中获得了优渥的发展空间。耽美文化作为与主流文化背道而驰的亚文化,始终被主流文化视为“妖魔鬼怪”。但随着资本市场的入侵,耽美亚文化也成为了一种资本获利的手段。最初,主流文化通过解构、重译等方式,将耽美亚文化收编至主流文化的范畴,从而进行更大规模的传播。但随着耽美亚
学位
混合所有制改革是国家近年来大力提倡的政策性方案。云南白药股份有限公司是一家享誉国际、底蕴深厚的制药大厂,由于它属于国内早期选择采取混改的重点企业,因此,研究云南白药的混改动因、混改对云南白药市场和财务绩效的影响,具有重要的参考价值和意义。本文结合云南白药混改至今的发展历程和企业状况进行案例分析,以求对具有相似或相同混改意向的企业提供建议。具体而言,本文从当下国家持续推进混合制改革的背景出发,基于混
学位
植物病虫害对我国农业生产造成重大威胁,往往会导致严重的经济损失。而病虫害防控的首要因素就是对植物进行大量的表型检测,其一方面可以指导当下病虫害的精准防控,另一方面可以筛选出基因突变的植株用于后续培育抗病品种。我国目前对于植物病虫害等胁迫的检测主要靠人力识别,虽然准确性较高,但是效率低下并且难以应对现实中大面积的病虫害爆发情况。随着我国农业信息化的发展,光谱遥感、图像处理和机器学习等技术逐渐成为植物
学位
随着我国经济的持续发展及人口的不断增长,人类活动以前所未有的强度影响了生态环境,造成了生态系统的退化,由此带来了一系列环境问题,严重影响了可持续发展进程。黄土高原是这类典型环境问题的多发区,为了缓解其水土流失,国家在该地区实施了退耕还林工程。工程实施后,黄土高原土壤侵蚀显著减少,植被覆盖大幅上升,各类生态系统服务都有所增加,同时也带来了一系列社会经济效应。研究表明,退耕还林工程生态效果是由区域自然
学位
商品短缺是计划经济时代中国工业发展长期存在的问题。在中国改革开放的进程中,随着市场经济体制在长期摸索中的不断发展,国民经济稳定运行,工业发展也维持了良好的势头。然而,尽管中国当前工业已减弱了生产数量不够的问题,但在国民经济成长过程中,生产能力的过剩问题却也很突出地暴露了出来。近年来,除钢铁煤炭之外,电力行业也进入产能过剩时代,传统火电的落后产能和新能源电力领域的富余产能也进入“去产能”的行列。从政
学位
目的:观察基础治疗结合“调脏理气”推拿法治疗慢阻肺急性加重期患者的临床疗效。方法:根据2021年修订版《慢性阻塞性肺疾病诊治指南》的要求纳入慢性阻塞性肺疾病急性加重期且分级为Ⅲ级和Ⅳ级的患者,治疗组27例,对照组28例。对照组予氧疗、抗感染、解痉平喘、化痰等基础治疗;治疗组予基础治疗结合“调脏理气”推拿法治疗。治疗每天1次,治疗14天。观察两组患者在治疗前后慢性阻塞性肺病评估测试(COPD Ass
学位