优化Q_learning算法在强化学习中的应用

来源 :科技通报 | 被引量 : 0次 | 上传用户:xiaoshuishe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Q_learning算法在实际应用过程中出现了许多问题,比如维数灾难、收敛缓慢等问题,通过对Q_learning算法进行改进,以期提升Q_learning算法的环境适应能力。基于启发式学习理论,将启发式奖赏函数融合到Q_learning算法中,对Q_learning算法进行优化和改进。最后通过仿真实验进行验证,该改进算法能有效提升机器的环境适应能力和学习能力。因此,经过优化之后的Q_learning算法可以在实际过程中应用。
其他文献
根据电网的暴雨灾害形成机制,选取临海的DEM、河网、植被、财政收入以及电网资料等数据,建立孕灾环境敏感性、承灾体暴露性和防灾减灾能力评估模型.以100 m×l00 m的栅格为基
针对目前电机机构职能控制存在的问题,同时结合其非线性以及参数时变等特征,提出了一种模糊自适应PID控制方法的触头速度跟踪系统.对真空断路器触头运动曲线进行了数学建模,
针对传统图像融合方法存在的细节不突出、轮廓模糊等问题,设计了一种改进的红外和可见光图像融合方法。采用非采样Contourlet变换将源图像分解为高频和低频子带系数。提出了一种基于几何与能量距离加权的低频子带系数融合策略以及基于灰度差异与梯度距离加权的高频子带融合策略。经过NSCT逆变换得到融合后图像。最后,进行实验研究。结果表明:所述方法不仅能够较好地保持低频子带的能量信息而且可以有效地提取高频子
生物质颗粒物燃烧器工况参数的合理选择与控制对烟气污染物的超低排放具有重要意义.本文设计了一套基于ARM Cortex-M3处理器的生物质颗粒燃烧器控制系统.为实现对燃烧器锅炉
辽河滩海东部地区是辽河油勘探重点接续区域,其新生代不同时期断裂体系特征发育具有较大差异,同时,走滑作用的存在使得构造演化的研究也愈加复杂.目前对于研究区构造样式、主