强化学习算法研究

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:svennis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对智能Agent运动中普遍存在的避障问题,结合强化学习具有的试错和环境交互获得在某状态下选择动作的策略以及无导师在线学习等特性。在介绍强化学习的原理、分类以及主要算法(TD(λ)、Q_learning、Dyna、Prioritized Sweeping、Sarsa)的基础上,对TD(λ)、Q_learning的算法进行分析,并将其应用到实验中。实验结果表明,强化学习中的、TD(λ)Q_learning等算法在不同情况下都能高效地解决避障等问题。
其他文献
针对传统数控培训中存在的场地受限、经费不足等问题,结合虚拟现实与人机交互等技术,提出了一种基于OpenInventor的数控培训系统实现方案。阐述了虚拟数控培训系统的软硬件开发
网络信息资源的开发与利用成为当前图书馆工作人员一项重要的工作,网络信息资源的著录为用户准确快速的找到所需的信息提供保障,本文通过比较MARC著录格式和都柏林核心集著录
<正> 海宁二轻机械厂为扩大服务领域,支援塑料编织袋工业的技术改造。承担了省轻工业厅下达的四梭圆织机的试制任务。经过一年左右的设计制造和小批量试生产,以及经玉环塑料
研究并实现了一个集GPS、GIS、GPRS于一体的特种车辆应急监控调度系统平台。分析了传统系统的功能局限,针对其存在的关键问题,在介绍了平台整体构架的基础上,详细探讨了基于动态静态相结合的混合消息发布/订阅模式平台的实现。该平台符合实际的应急监控调度业务需求,很好地支持了分部门消息订阅、多监控中心的分布式同步以及离线消息等功能。各模块之间耦合度小,具有良好的可扩展性。适用于多部门、大规模的车辆应急
在近年来不断面世的证券史论著作中,王年咏博士撰著的《复苏与起步:1980—1991年中国证券市场简史》(中国财政经济出版社2004年出版),用详尽的史料、严谨的逻辑和丰富的图表,客观清
阐述了储粮微生物显微分类识别的方法,提出了检测系统的硬件和软件组成。介绍了对检测到的微生物图像的目标区域,自动提取静态微生物图像的纹理特征和几何形状特征的主要技术和方法。实验结果表明,该方法可为储粮微生物的计算机自动模式识别提供稳定的特征参数值,不但有效提高了识别效率,而且也为储粮微生物的快速鉴定和分类研究开辟了新的途径。
研究了动态口令技术,分析了文献[1]中的一个可抵御劫取连接攻击的新的动态口令认证方案,原方案中由于对关键信息//的保护不够,尽管方案中的口令是动态的,但实际上原方案不能
我院自2003年7月-2003年11月因手术中腹腔引流管使用不当导致消化道瘘3例,现报道如下。
噪声信号对于语音信号是相对奇异的。小波变换是分析信号奇异性的有利工具。在利用小波对含噪语音进行分析研究的基础上,提出了一种新的端点检测方法。该算法利用了基于信号
高光谱遥感技术,将反映目标辐射属性的光谱信息与反映目标空间几何关系的图像信息有机地结合在一起。高光谱影像丰富的光谱信息使其较全色遥感、多光谱遥感能够更好的进行地面目标的分类识别。本文综合利用支持向量机分类的若干关键技术,包括序列最小优化训练算法、多类支持向量机构造方法、核函数及其参数选择的交叉验证"网格搜索",给出了高光谱影像分类流程,进行了遥感数据试验分析。