论文部分内容阅读
机器人自主导航是移动机器人研究领域中的一个核心技术和难点问题,涉及到机器人的感知、规划、执行等诸多方面。随着机器人应用范围深度和广度的延拓以及人工智能科学的发展,机器人导航越来越向智能化和自主化方向发展。模仿人类的行为方式和学习能力是智能机器人研究的发展方向,意义重大。基于这样的思想,通过机器人和环境的交互作用,用强化学习的策略对神经网络进行训练和调整,最终完成机器人在未知环境下的导航任务。本文采用动态自组织特征映射网络实现对机器人工作环境的离散划分,解决了Q学习中的状态优化划分问题。在此基础上,采用动态结构神经网络完成机器人对不同复杂程度环境下导航方法的学习。对神经网络结构自适应优化调整和机器学习进行了研究。主要内容如下:
⑴针对强化学习中环境状态均匀划分导致状态冗余,学习效率低下的问题,采用一种动态自组织特征映射网络实现了对环境状态的优化划分。在该网络模型中引入了神经元节点的年龄和邻接关系的创建和删除机制,达到网络结构的动态构建。该神经网络以一个简单的结构初始,依靠机器人在环境中巡游进行动态训练,从而完成对环境状态的聚类。网络竞争层神经元节点数目、节点之间的连接关系在训练过程中发生动态变化,最终网络规模和环境复杂程度相匹配。
⑵为了解决不同应用背景下神经网络的结构设计问题,特别是针对强化学习中状态空间和动作空间映射关系的学习问题,提出了动态结构神经网络。该网络模型与常用的BP网络有很大的不同,首先,网络的结构不需要预先设定,可以根据应用环境进行自动调节。其次,神经元的插入和删除不限于某一层内,网络的结构也不限于传统的三层。这样,一方面解决了Q学习中的状态一动作对组合爆炸问题,增强了学习结果的泛化能力:另一方面,也为先验知识不足的情况下神经网络的结构设计提供了有效的途径,避免了反复试凑的盲目性。
⑶结合使用动态神经网络和Q学习方法,构建了移动机器人导航控制器。在未知环境状态下,机器人没有合适的教师信号训练神经网络,机器人的学习能力是完成导航任务的关键所在。Q学习具有不需要建立环境模型的优点,适合于未知环境下的机器人导航学习。通过强化学习,动态结构神经网络实现状态空间到动作空间的映射。学习过程完成后,实现了机器人在未知环境下的导航,取得较好的效果。
⑷在Pioneer3-Dx移动机器人平台对上述提出方法进行验证和实现,完成机器人在楼道环境下的导航。同时也在该平台上复现了基于人工势场法的移动机器人导航算法,对两者的导航效果进行了比较和分析,证明本文算法的有效性。