论文部分内容阅读
赋予智能系统以强大的学习能力以及丰富的人机交互功能是智能系统在动态不确定环境中完成复杂任务的必由之路。在实际的交互过程中,要想完成智能体与人类用户的自然有效的交互,又需要对人类的意图进行正确的推断和识别。如何建立一个融合强化学习和用户意图推理的学习体系来实现智能系统的高级交互智能,进而应用于复杂的人机交互任务,具有重要的学术价值和实际意义。本文以智能机器人在实际的动态复杂环境中完成人机交互任务为背景,针对交互任务中如何对人的意图进行有效的识别,进而用以提升强化学习算法的适应能力和收敛速度,从强化学习和意图推理两个方面进行了相关研究,设计并提出了面向人机交互的强化学习和意图推理算法,并通过人机交互实验验证了算法的有效性。本文的工作主要包括:1)设计了基于粒子滤波和强化学习的目标跟踪控制框架,以在动态不确定环境下对目标人进行跟踪针对现有的机器人跟随控制算法不能适应动态变化环境的特点,设计提出了一种基于视觉传感的机器人跟踪控制框架,将粒子滤波算法与强化学习算法相结合,使得之能够完成在动态不确定环境下对目标人进行有效跟踪的任务。2)提出了基于灰色预测的意图推理算法,实现对人行走意图的预测,以提升跟踪算法对人运动变化的适应能力由于现有的跟踪控制算法没有考虑人的行走规律,因而使机器人在完成跟随任务时存在一定的迟滞,且难以适应人在行走方向和速度上的变化。本文提出了一种基于灰色预测新陈代谢GM(1,1)模型的用户意图推理算法,对人的行走意图进行建模,并用以对机器人的控制量进行修正,从而提升了机器人跟随的适应能力。3)设计了基于贪婪指导的快速交互式强化学习算法,以实现对人指导信息的充分有效利用,加速强化学习算法的收敛为了使机器人充分利用人交互过程中人给出的指导信息,在任务空间中进行更有效的搜索,本文提出了一种基于贪婪指导的快速交互式强化学习算法,从尽可能少的指导信息中挖掘出尽可能多的有效信息,加快了算法的收敛速度,减少了人的参与度和工作量。4)提出了一种基于意图推理的交互式强化学习算法,在人出现偶然错误的情况下对其真实意图进行有效识别,避免了对学习过程的误导在人机交互的过程中由于各种原因导致人给出的信息会有一定概率出错。在此基础上,本文提出了两种意图建模算法,即人的奖惩意图建模和指导意图建模,并将其与基于贪婪指导的快速交互式强化学习算法相结合,设计了基于意图推理的交互式强化学习算法。对比实验证明了该算法能够在人偶然出错的情况下,仍然能够对人的真实意图进行有效的识别,从而避免了对学习任务的干扰和误导,使机器人仍能快速地完成学习任务。