机器学习中加速强化学习的一种函数方法

来源 :云南大学学报(自然科学版) | 被引量 : 0次 | 上传用户:zm4910588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习中值函数需要反复更新直至其收敛是造成强化学习速度慢的根本原因.提出一种可实现批量更新值函数的学习方法,从加快值函数收敛的角度来加速强化学习.通过在训练情节中记录下从初始状态到达当前状态的状态转换序列,从中求出其它状态到达当前状态的最短状态路径,使当前状态更新的值函数可沿该最短状态路径逆序向前传播,从而实现值函数的批量更新.从在栅格环境中求最短路径的仿真试验结果看,该方法可显著提高值函数的更新频率,缩短学习时间.
其他文献
简述了昆明新国际机场管理服务信息系统采用SOA架构,通过ESB平台实现机场内、外,数10个系统的集成与协同运营的技术实施案例.可供跨地区的大型企业信息集成系统及物联网信息
用失重法和动电位极化曲线法研究了阴离子表面活性剂油酸钠(SO)对冷轧钢在1.0mol/L HCl介质中的缓蚀作用.结果表明:油酸钠对冷轧钢具有良好的缓蚀作用,为混合抑制型缓蚀剂,缓蚀率随油
利用昆明市13 a的酸雨资料及气象资料进行分析,结果表明年酸雨频率有前期较少后期呈上升的趋势,汛期期间酸雨频率较高,9月最高,干季较低;强酸雨频率与酸雨基本一致,日酸雨次
<正> 骨筋膜室是由骨、骨间膜、肌间隔和深筋膜形成的间隙,几乎闭合而无弹性。骨是骨筋膜室的重要组成部分,全身除腓肠肌和阔筋膜张肌外的其他肌肉均在骨筋膜室内,与骨关系密
两年来,本科收治完全性泪管断裂伤病人8例.采用自制支撑物支撑泪小管后行端端吻合,外加周围组织固定,治疗外伤性泪小管断裂伤,疗效满意,现报告如下.一般情况本组8例中,男4例,
10例患者(肝癌7例,肝外伤2例,多发肝内胆管结石1例),行肝左叶切除术2例,不规则肝叶切除或病灶切除8例,术中血流阻断法均采用环扎法,止血效果满意,术前术后肝功能无明显改变,
聚合酶链反立(Polymerase Chain Reaction,PCR),又称体外基因扩增技术或无细胞分子克隆体系。是在体外摸拟天然DNA复制过程的核酸扩增技术。1985年美国Cetus公司的Mullis等设
本文应用微量凝集试验(MAT)对我县495名健康者进行 L_(p1)~8型抗体水平调查,结果表明抗体平均 GMT 以 L_(p3)型最高(1:6.3),L_(p6)型次之(1:4.9),L_(p2)型最低(1:2.5),各型之
消化性溃疡是一种常见病,多发病,包括胃溃疡和十二指肠溃疡.本病的病因有的比较明确,有的至今尚未完全明了.为了解我厂消化性溃疡患者的临床特点,现将1988年5月至1991年1月经
<正> 梨状肌损伤综合征是中医骨伤科常见病之一,属中医痹症或伤筋的范畴。临床主要表现为臀部疼痛、酸胀,患肢大腿后侧及小腿外侧有放射痛和皮肤感觉减弱,可致跛行。其病因病