基于模糊小波网络的强化学习及其在多机器人决策策略中的应用

来源 :高技术通讯 | 被引量 : 0次 | 上传用户:tshy65655
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
给出了一种基于模糊小波神经网络(FWNN)的强化学习方法,并研究了应用该方法解决多机器人足球比赛中的决策策略问题。首先,使用FWNN来实现强化学习状态空间到动作空间的映射,从而解决大规格或连续状态空间所导致的学习速度过慢甚至难以收敛等问题。然后,研究了提出的方法在机器人足球比赛的复杂决策策略学习中的应用,证明机器人球员能够通过学习掌握根据比赛状态信息选择合理动作的能力。最后,通过实验验证了该学习方法的有效性,它能够满足机器人足球比赛的需要。
其他文献
学生思想教育管理工作是高校工作中的一项重要内容,学生处是承载这一职责的重要职能部门.文中从历史、现实和发展的角度全面阐述了河北农业大学学生处的职能、工作状况、存在
为解决P2P流媒体系统在异构环境下传输和共享视频数据的问题,对广泛应用于基于可扩展视频编码(SVC)的P2P流媒体系统中的等时长分片算法进行了研究,研究结果表明,该算法对SVC数据特
风险投资是以冒高风险、追求高收益为特征的一种新型投资行为,通过分析风险投资的4个运作阶段:选择投资项目、谈判进入风险企业、参与风险企业管理、退出风险企业来揭示风险
京秦铁路提速改造,采用水泥土挤密桩加固路基基床,提高基床承载能力。在4 h的“天窗”时间內进行挤密桩作业,到点必须恢复至原160 km/h列车运行。文章介绍施工时的安全防护措施
为给果树栽培学双语教学改革积累经验,结合本科生双语教学任务从多方面进行了尝试和探索.介绍了实施过程中所采用的教学模式及效果、学生对双语教学的反馈信息以及目前实施双
为了提高特征选择的稳定性和降低因样本数据变化引起的选择结果波动,提出了一种考虑稳定性要求的过滤式特征选择方法。不同于集成特征选择等现有的增强稳定性方法,该方法将特征
为了能够满足复杂产品研发过程中的不断迭代变化的产品数据管理需求,建立了面向复杂产品数据管理的适应性模型(APDM),给出了该模型的元模型的形式化定义,在此基础上建立了该模型的
从市场经济的角度和农机运用管理学课程的性质,分析探讨了课程培养人才的规格,在此基础上提出了教学内容的改革方案,并对教学方法以及教学资源的合理使用进行了探讨.
加入WTO在给我国独立审计带来前所未有的机遇的同时,也带来了巨大的压力和挑战.如何趋利避害,从审计目标、技术和审计准则等方面采取相应的对策,促进我国注册会计师行业在新
为长期演进计划(LTE)通信系统提出了一种采用干扰消除技术来改进信号到达时间差(TDOA)的移动台定位方法。该方法针对移动台在靠近小区中心时接收邻近小区基站信号会受到服务基站