移动机器人智能体混合式体系结构研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:majiguo1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
今天的移动机器人已经从结构化的工作空间转移到未知、真实的自然环境中。由于自然环境是动态的、不确定的和复杂的,传统的基于认知模型的体系结构的设计方式在实际环境中运行时,其实时性、鲁棒性和可行性都面临强有力的挑战,已难以胜任实际运行环境的要求。Brooks行为主义的思想改变了机器人的传统设计方法,更加注重机器人的自适应性以及快速的反应能力,它通过机器人自身对环境的感知,来建立环境模型。这种体系结构在人工智能(Artificial Intelligent,AI)上属于现代的反应式智能。但这种体系结构缺乏整体的管理,致使实时控制系统缺乏自主性与目的性,只适用于在未知环境下执行比较简单的任务。因此单纯的基于慎思(符号)的体系结构和基于行为的反应式结构己无法满足机器人发展和应用的需要。要求体系结构既要体现行为控制的基本特点,又要容易加入高层规划策略与方法。移动机器人体系结构经历的慎思-反应-慎思/反应混合式的发展历程,正是迎合了这种需求。混合式体系结构的一个主要贡献就是提供了一个融合慎思与反应的模板,使移动机器人既具有基于行为的反应式动作的实时性、适应性,也具有基于符号的慎思功能的目的性、最优性、自主性等特点。同时可加入学习和进化的功能,使机器人具备良好的主动学习和自适应能力。混合式结构已经成为当今移动机器人智能体体系结构研究的热点。本文以Pioneer3的移动机器人单智能体体系结构Saphira为载体,根据智能控制系统设计的一般结构,从自主行为的角度研究移动机器人混合式智能体体系结构中行为设计、行为协调和行为之间的转换关系等问题,建立包含反应行为控制层、慎思行为控制层和监督管理行为控制层的水平分层的智能体结构。根据智能控制结构设计的一般原则,在结构中加入判值部件,即监督层,来监督和协调反应层和慎思层的执行情况,同时融入学习的功能,一是用来学习动态环境下的适应性行为,二是通过收集样本数据进行训练/学习,建立预测模型,用来对动态障碍物进行避障。从而提高了移动机器人在动态、未知环境下的适应性。主要工作概括如下:1、以移动机器人单智能体体系结构Saphira为载体,设计了一个移动机器人混合式体系结构。在Saphira的反应/慎思混合式智能体体系结构的基础上,增加了一个监督层。监督层中设置监督、协调和学习/进化单元,用来监督、协调反应层和慎思层行为的执行情况,并对未知环境中的行为进行学习和预测。设计了一个差值判别器,用来协调反应和慎思行为的执行。判别器设在监督层的协调反应/慎思交叉执行的模块中,用来存放移动机器人实际移动方向与慎思规划方向的差值。如果差值没有超过90°,则混合式规划执行的是自上而下的交叉,由慎思层启动反应层,来执行所规划的子目标;如果差值超过90°,则执行行为自下而上的交叉,由反应层启动慎思层,重新启动全局规划,以保证能够获得较好的路径。论文还分别对未建模障碍物对慎思层规划轨迹影响较小时、影响较大时,采用反应式结构和采用混合结构时的规划结果进行了比较。仿真结果表明,在能够很好地协调反应与慎思功能交叉执行的情况下,混合式体系结构比单纯的反应式行为在面临不确定情况时能够表现出更好的性能。2、在慎思层中,针对全局路径规划行为,提出一种适合栅格地图的简单的规划方法-最速下降法(Steepest Descend Method,SDM)。首先采用激光测距获取运行环境信息,建立栅格地图。然后基于栅格地图进行SDM的设计,来满足最短路径和避障等的需要。方法是把两点之间直线最短的原理作为启发式信息,采用类似波传播原理的赋值方式,在起点栅格周围形成不同的梯度,然后按照贪婪最佳优先搜索的思想,从终点按照赋值下降最快的方向来寻找最短路径,回溯到起点。针对路径规划问题的四个评价标准,结合仿真和实验结果,可以得出SDM的优越性表现在:(1)在时间复杂性上非常突出,通常只经过一次搜索就可以找到最优路径,求解速度快,适用于实时规划;(2)需要的存储空间少,只与栅格地图划分的粗细有关,空间复杂性为O(n),n为栅格地图中栅格的数目;(3)对环境的复杂性不敏感,总能迅速地找到最优解;(4)算法具有一定的可扩展性,可以根据不同评价标准的需要,来修改赋值方法,从而形成不同的路径搜索算法。3、采用强化学习中的Q-学习(Q-Learning,QL),提出一种通过慎思行为学习来产生反应式行为的自动设计方法。这里的慎思行为是一个局部静态最优路径规划行为。学习完毕后形成控制规则,存放到反应层中,作为反应式行为去执行,从而实现了反应层行为的设计。具体设计过程为:(1)首先对输入/输出空间进行离散化,并由此构造一个11×192大小的矩阵,Lookup-Q值表M_Q,用来存放执行每个<s,a>的Q值。(2)学习时,在相同状态下按照Boltzman公式选择动作,并随着学习的进行,逐渐改变温度T的值,从而改变动作选择的概率,以解决探索和利用的平衡问题。(3)对强化信号的设计作了较为细致的研究。采用非均匀的表示方式,针对局部最优路径规划任务,把强化信号设计成两部分,分别用来表示与障碍物的距离信息和趋向目标的程度。针对相同状态下采取不同的动作所转移的状态,给予不同的奖惩信息,在提高学习收敛速度的同时,也保证了所学动作的最优性。(4)把机器人的局部路径规划过程建模为一个非确定性情况下的MDP,针对所设计的强化信号分别对相同状态下执行不同的动作进行学习,利用改进的Bellman公式更新Q值。(5)QL结束以后把M_Q表中每列具有最大Q值的<s,a>提出来,进行合并以后形成最优控制规则,放到反应层中作为反应式行为去执行。(6)在不同的环境状态下检验所形成控制规则的性能。仿真结果表明:①算法不存在常规模糊控制规则中的"对称无法确定"现象;②规划较短路径时,环境的复杂性对规划算法的性能影响不大;③与慎思层的全局路径规划相结合,形成混合式规划,可在复杂环境下规划出任意长度的最优路径。(7)算法具有易扩展性的特点。当运行环境改变较大时,利用QL继续进行学习。当<s,a>的Q值在Lookup表所属的列中不再是最大时,只需要修改反应层中相应的控制规则,而不必重新设计所有的控制规则。4、将滚动规划、动态预测、静态局部最优的反应式规划等概念与方法集成,提出了一种动态未知环境下新的混合式动态避障算法。并得到了有效的仿真实验结果。其主要内容为:(1)建立动态预测模型。利用摄像镜头监督动态障碍物在运行空间中的运行情况,并及时收集障碍物的移动轨迹,根据其散点图的特点建立不同的预测模型:a.动态障碍物在作近似直线运动时,采用基于普通最小二乘法(Ordinary LeastSquares,OLS)的一元线性回归模型对所采样的最新时间序列值进行拟合,并转换为自回归模型进行预测,进行实时避障。b.动态障碍物作非线性随机运动时,采用径向基函数神经网络(Radial BasisFunction Neural Network,RBFNN)来建立预测模型。并与通常使用的反向传播神经网络(Back Propagation Neural Network,BPNN)预测模型进行比较。仿真结果证实,RBFNN预测精度较高,而且学习速度很快,再结合所设计的N/M的样本数据划分,非常适合于非线性时间序列等系统的预测。c.滚动预测混合避障。在移动机器人检测范围内建立滚动窗口,只对进入滚动窗口的动态障碍物进行避障预测计算。每前进一步,就更新一次滚动窗口内的静态障碍物和动态障碍物的位置信息。然后把动态障碍物的预测位置,转化为"瞬时"静态障碍物进行避障。利用滚动窗口进行实时规划,不仅能减少规划的计算量,结合预测模型,还能避开动态障碍物。d.结合第四章中的反应式行为,进行仿真。仿真结果表明,算法不仅能避开动态障碍物,而且能够找到最优路径。
其他文献
针对开发人员在利用C/C++语言编写源代码时浪费大量时间的问题,同时为提高DSP对直流电机PWM双极性控制的有效性,研究了基于Matlab/Simulink平台下TI C2000DSP代码自动生成的
目的探究桂枝茯苓汤联合米非司酮治疗围绝经期子宫肌瘤的临床效果。方法选取收治的围绝经期子宫肌瘤患者92例,2015年11月—2017年11月为研究时段,以入院顺序号的奇偶性分组,
作为生活在人类社会中的个体,我们无时无刻都感受着文化的熏陶。教学文化是文化大环境中最为特殊,也极为重要的一种文化形式。教学文化对个体潜能的激发、自主性的表达、创造
中国电视娱乐节目的发展至今,逐渐呈现出一个趋势和三个走向的特征.一个趋势是"分众化",三个走向是"娱乐明星化"、"娱乐游戏化"和"娱乐新闻化".……
农业企业由于企业自身的需要,应更加准确地确定成本动因,为成本核算提供依据。文章通过分析影响农业企业成本动因确认的因素、成本动因确认应遵循的原则,为农业企业成本动因
肠道菌引起的肠壁炎症常伴发关节炎症。动物实验表明,肠道内专性厌氧菌细胞壁片段(CWF)中的肽聚糖-脂多糖(PG-PS)为诱发关节炎的主要成分。人肠内容物可溶相和哺乳动物组织中
翻转课堂是近年来发展起来的一种新兴的教学模式,为教学的改革提供了新思路。本研究为了解决传统教学模式在医学专科生物化学教学过程中存在的问题,构建了生物化学课程的翻转
人工挖孔灌注桩是桩基础的一种常见形式,它具有施工工艺简单、成孔机具少、工程质量可靠、施工进度快、成本低的优点;本文根据工程实例,分析介绍了在山坡地区人工挖孔桩的设计与
光学系统成像链的像质评价是光学检测领域的重要研究课题。本文将超光谱成像仪光学成像链按照独立成像的子系统划分为:望远镜系统、狭缝系统、光谱仪系统和面阵探测器CCD四个
全局优化问题大量存在于科学研究和工程应用的各个领域,进行全局优化方法的研究具有重要的理论意义和实用价值。微分进化算法是模仿自然界生物进化过程中“优胜劣汰、适者生