论文部分内容阅读
情绪识别与跟踪对高质量的人机交互来说具有重要的意义。科学研究表明,能够在交互过程中理解用户情感的计算机会提供更加智能的交互响应,进而提升用户的交互体验。近年来,随着网络摄像头的普及,用户的视觉信息可以更方便地被计算机捕捉,并且随着计算机运算能力的增强,越来越多的基于视觉信息的情绪识别方法被提出,使之成为计算机视觉以及人机交互领域的研究热点之一。 目前,已经有很多基于计算机视觉信息的情绪识别方法。这些方法中的大部分将情绪按类别进行描述(如喜悦,悲伤,轻蔑等),并取得了较高的准确率。但是在自然交互过程中,用户的情绪更加复杂,其变化也更加细微缓慢。因此,需要使用情感空间(如Pleasure-Arousal-Dominance情感空间)中的连续情绪对用户的情绪进行捕述。实验表明,致力于将情绪进行分类的方法很难对连续情绪进行准确的分析与跟踪。除此之外,与实验室中较为理想的环境不同,用户在进行日常交互行为时头部运动更加自由,速度更快,而且也更容易出现面部局部遮挡等情况。上述问题也使自然交互过程中用户的情绪更加复杂,也给基于视觉信息的情绪识别带来了很大的困难。由此可见,有必要设计一个连续情绪识别与跟踪方法,使其能够准确地对用户的连续情绪进行识别与跟踪,并且具有较高的鲁棒性,在自然交互环境下依然保持较强的情绪识别与跟踪能力。 基于上述问题,本文提出了一种基于三维头部信息的连续情绪识别与跟踪的算法。其主要贡献有: 1.在情绪识别过程中恢复用户三维头部模型。与二维视觉特征相比,三维视觉特征鲁棒性更强,可以更好地克服交互过程中产生的头部面外翻转,大尺度头部运动,面部局部遮挡,光照变化等情况带来的问题,进而提升面部关键点跟踪与情绪估计的准确性。 2.提出了一种基于三维头部模型的图像融合方法。算法构造了两种包含融合视觉特征的情感表达图像:连续情感表达以及与人无关的情感表达。前者旨在包含一段连续时间内包含上下文的情感表达,后者旨在去除情感表达时包含的用户个性化特征,获得不包含用户个性化特征的通用情感表达。上述两种情感表达图像可以更好地对情绪进行描述。 3.提出了一种新颖的基于随机森林的情感识别与跟踪模型。该模型可以同时进行三维头部关键点位置维度上的回归操作以及情绪维度上的回归操作,即可以同时进行用户三维面部表情跟踪以及当前情绪的识别。 基于上述算法,文章实现了一个连续情绪识别与跟踪原型系统。实验结果表明:系统具有较高的识别率与稳定性,运行效率较高,可以适应实时交互的场景,并且具备在桌面交互环境以及移动交互环境下进行自然情绪的识别与跟踪的能力。