基于TensorFlow的Q-Learning算法研究与实现

来源 :现代计算机 | 被引量 : 0次 | 上传用户:lyysnnu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的蓬勃发展,人工智能对“智能化”的要求也越来越高,如何实现真正的智能即如何让机器自己去学习一种新技能成为一个重要的研究课题,而强化学习正是该课题的思路之一。将以强化学习开始,然后介绍Q-Learn ing算法的具体内容,最终利用深度学习框架TensorFlow完成该算法的实现。
其他文献
文章通过对某公司载货汽车的一系列热平衡试验及不合格车型的改善结果,分别从发动机冷却系统的工作环境(冷却风扇、护风罩及防热风回流装置等)和散热器总成的结构(芯子材质、
韩礼德的系统功能语言学是一种普通的语言学理论,并拥有相当完整的思想与理论体系。其构建该语言学的目的之一是为语篇分析提供一个理论框架,可以帮助人们认识语言的性质、功
目的探讨经皮腔内血管成形术(PTA)治疗血液透析患者肿胀手综合征(SHS)的成功率、通畅时间及其影响因素。方法回顾性分析2015年5月至2017年3月采用PTA术治疗的16例SHS患者临床
为了研究赤芍总苷对血小板聚集功能的影响,采用比浊法观察赤芍总苷对大鼠血小板聚集功能的作用,用放射免疫法观察对大鼠TXB2/6-keto-PGF1α、ET水平的作用,并用硝酸还原酶法
武昌由于地理优势,从三国时起就成为历史名城和军事要地.曹操和孙权曾以此为争夺的重点.以后几个朝代,武昌为郡、州、路、府一级的行政机关治所.武昌城内商业并不发达,而在城
人口老龄化已经成为当前中国较为严峻的人口问题。农村老龄人口数也在这样的大潮下不断增多,体现出国家经济文化建设取得显著成就,人民生活水平得到不断提高的同时,也突显出
我国传统观点认为盗窃罪等财产犯罪的客体是公共财产的所有权,理论和实践均证明该说存在缺陷,尤其在所有权人秘密取回他人占有下的本人财物的场合,应在肯定盗窃罪的客体是所
1938年10月26日,武昌失陷.日寇在侵占余家湾、李家桥、纸坊、青林寺、游家庙后,紧接着将兽蹄踏进了青山这块土地.从此,青山人民遭受日寇的蹂躏、践踏和残害,过着水深火热的悲
中小企业是我国市场经济体制的微观基础,是促进就业的重要渠道。然而,世界金融危机给我国中小企业的生存与发展带来极大的困难和挑战,尤其是我国中小企业面临的体制性障碍更使其
抗日战争期间,武汉沦陷七年(1938—1945年).沦陷初,除法租界外,全市几成空城.以后,市民虽渐返回,但人心不安,市面惨淡,京剧剧场虽恢复营业,但亦仅处于维持状态,已非战前的繁