论文部分内容阅读
随着科学技术的发展,人脸表情识别在计算机视觉领域越来越重要,在心理治疗、教育和人工智能交互等方面有很广泛的应用。人脸表情识别的方法可以粗略的被分为基于分类器的方法和基于深度学习的人脸表情识别算法。传统的人脸表情识别方法包含人脸检测、人脸关键点定位、特征提取和人脸表情识别四个步骤,前两个任务已经各自成为一个必要的研究领域。关于人脸的特征提取、特征选择以及表情分类算法是人脸表情识别算法的核心。把特征提取和表情识别两个步骤合并共同学习的方法可以自动学习选择人脸表情相关的特征来做人脸表情识别任务是基于深度学习方法的特色。现有的人脸表情识别算法可概括为两类,基于图片和基于视频序列两方面的方法。针对静态的图像,本文提出了一种用于人脸表情识别的新的深度学习网络结构和训练方式,我们把它称为细节感知迁移网络。该网络结构包含并列的嵌套的小滤波器结构,可以有效地提取不同尺度感受野的特征;该网络结构利用了 1×1的卷积核进行卷积,有效地减少网络参数,提高网络训练速度;同时网络中加入了残差项,可以有效地避免深层的网络信息丢失问题。此外,该网络学习利用了迁移学习的方法,可以有效地利用相似问题的大量数据集训练网络模型。本文还发现基于提升的方式训练深度学习网络模型,可以有效地提高网络模型的精确度。针对视频序列,本文提出一种利用多任务学习的递归神经网络模型,在该模型中包含两个任务。两个任务相互促进,共同学习,利用时间递归神经网络可以有效地记录视频前面帧的信息。该模型包含四个组成部分,分别是编码网络、人脸识别网络、时间递归神经网络和人脸表情识别网络结构。本文收集了一个500个视频序列的人脸表情数据集。针对图像,我们在Cohn-Kanade+和Kaggle数据集上进行实验,实验证明本文的细节感知迁移网络和训练方式可以有效地提高模型的准确率。在I-PFE数据集上,我们利用基于视频序列的多任务递归神经网络进行实验,实验结果表明,人脸识别和人脸表情识别共同作用可以有效地分类时间相关信息和时间无关信息,提高人脸表情识别的准确率;同时,时间递归神经网络可以利用视频序列前面帧的信息对后面帧的影响,有效地提炼时间相关的信息。同时实验证明,本文提出的方法表现出良好的效果比现有的先进方法。