基于Q-Learning的智能体训练

来源 :石家庄铁道学院学报 | 被引量 : 0次 | 上传用户:wuming66666666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对机器人足球比赛的多智能体环境下智能体的训练问题,提出了一种将模糊控制与Q-Learning相结合的学习方法,并在学习过程中自动调节回报函数以获得最优策略,此方法的有效性在中型组的仿真平台上得到了验证,并取得了较好效果,还可将它改进应用于其他多智体环境。
其他文献
提出了一种非连续控制技术(bang-bang控制)实现混凝土浇注机驾驶室轮压液压控制的方法。应用结果表明,此方法简单可行,能满足混凝土浇筑机的正常工作要求。表明bang-bang控制是实
将随机桥面平整度描述为零均值的平稳高斯随机过程,建立了大跨度斜拉桥空间有限元模型,考虑结构的初始应力效应和几何非线性因素,利用逐步积分法解车.桥耦合振动方程,进而对斜拉桥
结合西柏坡电厂铁路专用线工程,介绍了与既有朔黄铁路并行段土石方开挖所采取的隔坡定向爆破工法的爆破原理、设计方法以及施工技术措施和效果,为今后类似工程提供了参考依据。
以妥协可接受的NTU对策的妥协值和TU对策的τ值为基础,将妥协值的性质推广到随机合作对策的模型中,从而得到具有非空核心的、妥协可接受随机合作对策的妥协值是可期望得到的最
利用Wegner流方程方法研究非线性谐振子和非线性耦合谐振子系统。对非线性谐振子系统,计算出系统参数随流参数变化的一组方程及系统的能级;对耦合的非线性谐振子系统,得出系统参
通过对城市污水处理工艺评价指标的定量化处理,并根据奖优罚劣的原则对初始指标集进行[-1,1]区间线性规范化处理,确定理想最优方案(A^*)和理想最劣方案(A-),以此计算出各待选方案与它
钢护筒在水中钻孔桩基础施工全过程中扮演着至关重要的角色,决定桩基成桩质量的好坏。通常来讲,水中桥的钢护筒必须穿过海床的淤泥覆盖层,打入稳定的地质岩层内,确保在钻进工
对地震区的边坡进行稳定性分析时,须计入地震力的作用;探讨用安全系数法和可靠性分析方法结合的方法,对地震区边坡进行滑动稳定性分析,既考虑了不确定性因素,又是对定值法的一种补
得到了函数b(x)∈BMO,Ω满足Dini条件时参数型Marcinkiewicz积分交换子μρΩ,b(f)(x)的端点估计|{y∈Rn∶|μρΩ,b(f)(x)|λ}≤c‖b‖BMO∫Rn|f(x)|λ(1+log+(|f(x)|λ)), where μρΩ,b(f)(x)=(∫∞0|1tρ
利用Lax对非线性化方法,讨论二阶矩阵特征值问题。利用位势函数与特征函数之间的Bargmann约束,将二阶矩阵特征值问题非线性化,获得一个新的有限维Ham ilton系统和发展方程族解的