【摘 要】
:
近年来,智能决策与控制技术得到了突飞猛进的发展,极大的提升了机器人应对复杂实际问题的能力,并逐渐发展为国家层面的战略。电脑鼠是一种嵌入式移动机器人,能够自主探索未知迷宫,并实现最短路径冲刺。为了在狭小复杂的迷宫中高速运行,电脑鼠对控制与决策的性能要求较高,长期处于机器人领域的研究热点。强化学习技术能够让智能体从环境中总结规律,以“试错”的方式提升决策性能,是一种重要的机器学习方法。本文针对迷宫探索
论文部分内容阅读
近年来,智能决策与控制技术得到了突飞猛进的发展,极大的提升了机器人应对复杂实际问题的能力,并逐渐发展为国家层面的战略。电脑鼠是一种嵌入式移动机器人,能够自主探索未知迷宫,并实现最短路径冲刺。为了在狭小复杂的迷宫中高速运行,电脑鼠对控制与决策的性能要求较高,长期处于机器人领域的研究热点。强化学习技术能够让智能体从环境中总结规律,以“试错”的方式提升决策性能,是一种重要的机器学习方法。本文针对迷宫探索阶段的决策过程,提出了一种新颖的电脑鼠优化方法,研究了强化学习技术应用于电脑鼠行为决策的可行性和有效性,并对决策性能进行仿真分析和实际验证。本文的主要研究内容如下:(1)针对电脑鼠迷宫探索决策问题,总结了国内外研究现状,详细介绍了电脑鼠控制系统结构和关键技术;在分析决策目标的基础上,阐述了传统方法的决策流程,提出了电脑鼠行为决策的性能评价指标;通过介绍深度强化学习决策技术,明确了本文的研究内容,奠定了本文的理论基础。(2)在分析电脑鼠迷宫结构的基础上,提出了随机迷宫生成方法,根据部分可观测的马尔可夫决策过程,搭建了迷宫探索环境模型,设计了形式化环境奖励方式;通过视野重建技术,采用卷积神经网络提取环境特征,使用双重深度Q网络构建了强化学习决策模型,详细阐述了决策模型的训练管理方法;通过仿真实验测试模型效果,结果表明其与传统方法的平均胜率约为55%,表明标准决策模型具备有效性和提升空间。(3)根据电脑鼠行为决策特点,通过分析标准模型存在的问题,从多角度对决策模型进行优化研究。利用长短期记忆网络对历史信息的整合能力,优化了决策模型结构;提出了并行探索训练方法,改进了决策模型的训练管理方法;基于洪水预推演方法,提出了电脑鼠行为效果的预测模型,实现了人工经验和强化学习的决策融合。通过仿真实验,证明了各改进方法的有效性,以及组合优化效果。实验结果表明,当三种优化方法组合应用时,决策模型与传统方法的平均胜率约为96%,具有最好的性能表现。(4)根据电脑鼠开发流程,使用云服务器、My SQL数据库、硬件在环仿真技术、C#和Python程序设计语言,设计并实现了智能电脑鼠开发平台,将强化学习决策方法应用于嵌入式设备。实际应用效果表明,智能决策方法能够达到嵌入式电脑鼠对实时性的要求,证明了研究的实用性。本文共有图45幅,表15个,参考文献55篇。
其他文献
信号调制方式识别是指在未知调制信息的情况下对接收到信号的调制类型做出正确判断。通信信号调制识别不仅在民用领域意义重大,在军事及国家安全方面也都发挥着至关重要的作用,在电子战中,快速准确地判断出未知信号的调制方式是制胜的关键。在人工智能浪潮下,将机器学习算法与调制识别技术结合已经成为了发展趋势。本论文“基于机器学习的数字信号调制识别及FPGA设计与实现”主要研究基于机器学习的调制识别算法和神经网络的
开放车间调度问题是一种典型的组合优化问题,在制造业、交通和物流等领域被广泛研究。这类问题具有复杂的约束和巨大的解空间,因此求取最优解十分困难。目前,传统算法大都基于特定规则或局部搜索的策略来获得次优解,只适用于解决特定分布的问题,具有较大的局限性。近年来,深度强化学习在解决各类复杂决策问题中展现出较强的适用性和可扩展性,因此,本文基于深度强化学习求解开放车间调度问题。论文的主要工作如下:本文设计并
市政排水管道在城市建设中的应用逐渐增大,但由于地下空间不断开发,管道破损沉降,容易发生管道塌方、地面塌陷等严重情况。为了保障排水管道正常工作,市政工作井然有序,对排水管道进行应急检测具有重要意义。由于排水管道管径大小不一以及管内存在大量易燃易爆的有毒气体,人工下井作业十分困难,因此采用机器人下井完成管道应急检测是十分重要的。目前已有的管道检测机器人大多数只适用于新管道验收,很难适应排水管道这种恶劣
图像描述(Image Captioning)是指计算机对给定图像自动生成简洁的自然语言描述。计算机图像描述能够将图像信息转化为文本信息,从而实现信息不同模态之间的转换,在图像索引、智能教育、(盲人)视觉辅助等各方面具有广阔的应用前景。图像描述是一个多模态学习问题,不仅需要准确地识别对象、属性并捕捉到它们之间的关系,还需要考虑语法的准确性和语义的多样性,因此图像描述的实现需要结合计算机视觉、自然语言
在传统多标记学习算法中,用于训练的数据集中的每个样本被精确标注了多个相关标记,但由于近年来数据量急剧增长,精确数据集在现实情况中很难获取。现有的多标记学习算法对于不精确数据集的考虑通常是针对标记缺失的情况,然而在很多情况下数据集中的一个样本只是被大致分配了一组标记,该组标记中除相关标记以外还有一些不相关的噪声标记。为了解决多标记学习中的标记冗余问题,近年来提出了一个新的学习框架,即偏多标记学习框架
多模光纤内部不同模式的干涉会在光纤端面处形成具有复杂亮斑分布的光斑图样。由于光斑的形成与多模光纤的结构以及所处环境等具有密切联系,因此可以利用光斑的检测和处理对光纤所处状态进行传感。随着光斑图样检测技术与图像处理技术的日益发展,基于光斑的光纤传感器已经在多个领域表现出其独特的优越性,具有很高的研究价值。本文对多模光纤在不同弯曲半径下的输出光斑进行了仿真及实验研究,基于深度学习的方法,通过对多模光纤
多能谱CT(Computer Tomograph,CT)利用光子计数探测器直接将光信号转化成为数字信号,能够获得不同能量段的成像。多能谱CT可以利用K-边成像降低辐射或造影剂剂量,还可以利用多能谱特性提高软组织对比度。然而多能谱CT图像在物质浓度较低时,物质与背景很难被区分开来;当两种原子序数很接近的物质距离很近时,在成像图中会混在一起而难以区分。超分辨率图像重建旨在提高图像分辨率的同时解决物质与
相比传统的直流电机,永磁同步电机(PMSM)简化了结构,降低了成本,提高了控制性能,在高精度伺服控制领域得到了广泛应用。摩擦力矩干扰是影响永磁同步电机伺服系统精度和鲁棒性的重要因素之一。利用现代干扰补偿控制理论,设计非线性摩擦干扰控制器,补偿永磁同步电机伺服系统的非线性摩擦力矩干扰,提高伺服系统的位置和速度跟踪性能,具有重要意义。针对永磁同步电机位置伺服系统中存在的摩擦力矩干扰,本文结合分数阶控制
随着物联网技术和产业的飞速发展,催生了许多新兴的物联网应用场景,例如水下环境的信息监测、野生动物信息采集、山区道路危险预警等。现有的无线通信网络在缺少基础设施的场景下很难有效运行,而机会网络利用网络节点之间的相遇机会进行数据传输,无需基础设施,可以更好的适应这些新兴应用场景。由于无线网络节点之间搭建的临时通信网络是高度动态且部分连通的,节点之间可能不存在完整的连接路径。机会网络采用“存储-携带-转
得益于弹性按需的服务模式和允许网络广泛访问的特性,云服务在互联网上的数量呈爆炸式增长,导致云服务市场中充斥着大量功能相似但服务质量(QoS)不同的同质化云服务。在这种情况下,用户很难确保所选择的云服务能够在特定环境中满足自身的完整需求。因此,结合推荐技术,对QoS进行准确和个性化预测成为了帮助用户选择与自身匹配程度较高的云服务的必要条件。近年来,基于QoS预测的云服务推荐在服务计算领域持续引起关注