基于生成对抗网络的模仿学习研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhuobin0904
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习利用数据或者过往的经验来提高计算机程序的性能,被看做通往人工智能的重要途径,并且在计算机视觉、数据挖掘、自然语言处理等领域受到了大量关注和广泛应用。模仿学习通过系统提供的专家指导示例数据,可以得到每一步决策的直接参考,可以端到端学习到策略模型,近年来得到研究学者的广泛关注。生成对抗网络(GAN)目前已经变成人工智能学界热门的研究方向,本文借助生成对抗网络的思想,给出用生成对抗网络实现模仿学习的算法,避免了求取报酬函数,实现从策略到策略的端到端的学习。本文主要分析传统模仿学习算法的实现思路,利用能唯一确定策略的度量标准,给出了通过该度量标准实现模仿学习的可行性。本文给出了生成对抗网络中生成模型目标函数与模仿学习目标函数的一致性,通过训练判别网络与生成网络,实现模仿学习算法的优化过程,从而将模仿学习与生成对抗网络联系起来。传统生成对抗网络存在一定缺陷,本文探讨了算法缺陷的特点和来源,结合近年来火热的WGAN来实现模仿学习算法,给出了新的目标函数,使模仿学习算法能避免传统GAN带来的缺陷。本文探讨了训练网络过程中策略模型的更新过程,采用了能较好更新策略模型的算法,实现策略更新步长自适应选取。本文利用OpenAI的物理仿真引擎Mujoco作为仿真平台,通过对Mujoco中提供的多个任务执行模仿学习算法,验证了用生成对抗网络思想实现模仿学习算法的有效性,实现了从专家轨迹到策略的端到端的学习目的。
其他文献
现金是企业经营的“血液”“现金为王,稳健为先;合理持有,效率至上”已成为企业管理中现金使用的基调,“现金为金,债权是银”这一财务会计理念早已在现代企业管理中得以确立
海洋维持着人类的生存繁衍,使人类社会能够实现可持续发展。随着人类对海洋的开发不断地深入,科学技术对海洋开发的支撑作用越来越重要。水下目标跟踪作为海洋开发的一个重要
随服务经济时代的到来,生产性服务业已经成为经济增长和产业结构转型升级的关键,其发展是转变发展观、创新发展模式、提高发展质量的客观要求,有利于促进经济全面、协调、可持续发展。目前,河北省生产性服务业发展依然较为落后,对制造业以及其他服务业发展形成制约。本文首先分析河北省生产性服务业发展现状。运用基本统计数据和投入产出分析系数对河北省生产性服务业从产业关联和偏离-份额两方面进行深入分析,发现其产业关联
北京小杂56号’早熟大白菜是北京市蔬菜研究中心用双1和269两个自交不亲和系配制而成的优良一代杂种,经中心内多年的品种比较试验,三年的北京市区域试验、生产示范及两年的全国区域试
水煤浆雾化技术是水煤浆燃烧的关键技术之一。撞击式多级雾化水煤浆喷嘴雾化质量好、寿命长、气耗率低并有良好的防堵性能 ,经在山东白杨河电厂 3号炉应用 ,燃烧效率达到 98.
本文根据数学机械化的思想,在导师张鸿庆教授“AC=BD”理论的指导下,研究在流体力学、空气动力学、等离子体物理、生物物理和化学物理等现代科学技术中引出的非线性偏微分方
文章首先阐述了会计专业人才培养类型的转变趋势,然后分析了会计专业人才培养模式新思路,包括会计专业人才培养课程体系的改革;课堂教学的改革;专业教师需提升自身专业素养。
结核病(tuberculosis)自古以来就是严重威胁人类生命安全的公共卫生难题,其是由致病性的结核分枝杆菌(Mycobacterium tuberculosis,MTB)侵入机体导致的慢性呼吸道传染性疾病,
高职院校继续教育是高职院校教育的重要组成,对高职院校的发展意义深远,然而通过分析高职院校继续教育体制和机制,不难发现诸多问题,积极采取措施,解决问题已经成为"当务之急"
目的:探讨自体脂肪移植用于面部年轻化治疗对就医者美观满意度、自信心及尊严感的影响,为面部年轻化治疗提供参考。方法:选取行自体脂肪移植以改善面部老化的40例就医者为观