论文部分内容阅读
随着计算机技术、控制理论、传感器技术、人工智能的不断发展,机器人技术在研究与应用的双重驱动下得到迅速发展,其应用在诸如工业、军事、航空航天、医疗、服务行业等领域全面拓展。在机器人能力不断的提升同时,单靠个体机器人应对一些时间、空间、功能上呈现分布式特性的复杂任务有时难以胜任。自然界已经将大量高效、自适应、具有故障容错能力的分布式多智能体系统展现出来。从群体的角度,深入研究机器人个体之间的相互作用、协调配合与控制,实现对目标、资源的有效配置与调度,进而提升系统的整体性能,极具现实意义。鉴于多机器人系统的巨大潜在的应用价值,引起国内外广泛研究兴趣和关注。由于资源分配和使用不合理出现的冲突和死锁,机器人之间协作难度大等是多机器人系统研究面临的挑战和难题。多机器人系统研究目标就是尽量发挥系统的优势,解决系统中存在的问题,使多机器人能够更加灵活、更加快速的响应环境和任务的变化,从而在复杂环境中高效且可靠地完成控制任务。而且,由于机器人面临的环境动态变化、难以建模等诸多复杂的不确定因素,传统机器人控制模式已不能很好满足实际作业环境的需要,从而通过机器人在线学习来提高对未知动态复杂环境的适应性变得非常重要。而增强式学习方法无需建立环境模型,它通过试错与环境交互来获得策略的改进和完善,使其成为机器人学习技术的一个重要方向。本硕士论文针对多机器人系统的学习算法和运动控制策略进行了较为深入的研究,具有很好的理论价值和应用前景。本硕士论文主要研究工作有:1、考虑未知动态环境下机器人系统的运动规划问题,提出了一种新的避障规划策略。针对一类圆形动态障碍,机器人通过激光传感器采样获得障碍边缘,采用最小二乘法对障碍边缘进行拟合;经过多次估计动态中心位置和大小,获取障碍物的相对速度和方向。综合考虑机器人、动态障碍以及目标点间的相对关系,确定机器人的最优运动方向,以保证机器人安全运行和任务完成。在此基础上,进一步给出了多机器人系统在未知动态环境下的编队控制策略。2、学习能力是个体机器人不可或缺的能力,它为复杂环境下的理解、运动规划与决策提供了一条有效解决途径。由于系统中环境状态、机器人自身状态等,导致了系统状态数目几何级别的增长。针对机器人运动控制,提出了一种基于环境感测和任务信息状态描述的局部加权K近邻状态选择方法。在此基础上,结合TD增强式学习算法提出了基于局部加权K近邻TD增强学习策略,从而减小kNN-TD方法状态误分类率,提高机器人的学习效率。3、针对多机器人系统,为加快单体机器人的学习速度,提出了一种基于局部加权kNN-TD算法的多机器人交互增强学习策略。基于环境感测和任务信息状态,分别给出了全局通信和局部通信情况下的K近邻状态选择方案和多机器人系统的无时滞异步增强学习算法,多机器人之间合作关系的最优动作选择。