基于强化学习TD算法的乒乓游戏击球策略优化

来源 :电脑知识与技术:学术交流 | 被引量 : 0次 | 上传用户:lanrengbuluo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机乒乓游戏是出现在个人计算机上最早的游戏之一,该文利用强化学习中的TD算法,将状态的变化与得分的统计规律统计出来,就是研究在当前状态S下,球拍怎样移动获利最大,让机器击球手快速运动并准确击球。
其他文献
广播是无线多跳网络的基本操作,针对现有广播算法大多存在转发冗余度高、广播开销大的问题,提出一种分段式扩展环搜索算法S-ERS。该算法从数据分组中提取距离信息,在此基础上
目前用例模型作为一种捕捉和分析软件功能性需求的方法已经被广泛采用。用例点估算方法正是以用例模型为基础的一种软件估算方法,该方法被证实是一种易操作、实用、可靠的估
电子商务活动在开放网络环境中越来越频繁,文件共享等服务也越来越普遍,用户之间的信任关系成为安全问题的重点。该文研究了现有的推荐信任模型,分析了其中存在的问题,提出了
在使用DHCP服务的网络中,非法DHCP服务器的存在将干扰合法DHCP服务器的正常工作,从而影响网络的正常运行。该文给出了DHCP服务的工作过程,分析了非法DHCP服务器可能带来的危
江西省电力公司于1998年对所属的发供电企业认真地开展了安全性评价工作,取得了一定的成绩。通过安全性评价工作,提高了企业职工的整体素质,促进了安全管理工作,逐步地标准化,规范化,使
将NaOH溶液快速滴加至Fe(NO3)3·9H2O和聚乙二醇(PEG)1 000的混合物中,制备了羟基氧化铁.用X-射线粉末衍射仪(XRD)、傅里叶交换红外光谱仪(FTIR)和激光粒度仪对制备的羟基氧化铁
为有效提高高校图书馆的服务质量,提出了以短信方式为读者提供服务的服务理念。以图书馆短信催还系统的分析、设计为背景,探讨了UML在系统建模中的应用。以用例图表达系统需
无线传感器网络由具有感知、计算和通信能力的无线传感器节点组成。为了发展无线传感器网络的安全应用,对无线传感器网络的安全攻击和防御进行了分析,针对主要的问题,提出了
摘要:高强度聚焦超声(HIFU)是一种无创、低费用的新型肿瘤治疗手段。但是目前仍无一种有效的HIFU无损温度监控及检测治疗方法可应用于临床。该文采用数据挖掘中的回归分析模型,挖