论文部分内容阅读
移动机器人是机器人领域的重要研究方向,集人工智能、信息检测、信息处理、智能控制等专业技术为一体。实际应用的机器人往往需要在未知环境中工作,研究未知环境下移动机器人的学习控制具有很大的现实意义。移动机器人的自主学习能力是其能否在未知环境下顺利工作的关键,本文对移动机器人未知环境下的学习控制方法进行研究。本文的主要工作和成果如下:1.针对传统人工势场法存在的问题,提出一种改进的人工势场法,对目标不可达和局部极小点问题采取了针对性举措,在一个未知的三维仿真环境中实现了移动机器人寻找到目标的任务。2.针对一般强化学习只适用于一些环境状态空间比较小、智能体行为选择也比较单一的情形,对于连续或高维状态空间的环境算法性能不佳的问题,提出一种基于单位矢量场和启发式规划的Dyna结构优化算法,将单位矢量场和启发式规划同时引入到Dyna框架中,大大减少了对状态空间的盲目搜索。3.针对真实环境中的连续状态空间造成的“维数灾”问题,提出了一种新的环境状态空间的定义方法,将连续状态空间离散化;同时针对强化学习学习效率不高的问题,在奖赏函数中引入启发式奖赏,减少盲目搜索的概率,使动作选择更有目的性。面向实际应用场景,提出一种基于未知环境状态空间新定义及利用启发式奖赏的机器人导航Q学习算法,该算法对于未知环境有很好的适应性和泛化能力,在未知动态环境应用也取得了不错的效果。4.很多强化学习算法只是在Matlab等仿真平台上实现,与实际应用有较大的距离,限制了算法的可移植性。本课题在仿真平台Simbad上进行机器人的学习控制应用研究,算法采用Java语言实现,Simbad搭建的是一个三维的复杂环境,机器人通过各种传感器获得环境信息,对于实际环境中的应用有更大的参考价值。