论文部分内容阅读
人脸表情识别旨在从面部特征识别人类情绪。理解不同类别的面部表情有助于辅助机器模型分析人类情感感知状态并做出相应判断和回应。自动面部表情识别由于其在社交媒体分析和人机交互中的众多潜在应用而成为了情感计算和计算机视觉领域的热点研究话题。经典原型表情理论认为各地区和种族的人类都具有七类一致的基本表情。早期表情识别研究遵从该经典理论,基于实验室控制条件下的摆拍表情数据库进行单一场景内的七类基本表情分类。然而,随着互联网的普及以及深度学习技术的发展,面向实际应用的工作逐渐从实验室统一环境下的摆拍表情转移到了更具挑战性的现实生活自然表情中。真实世界包含多种场景和动态变化,光照、姿态、遮挡等环境因素和民族地区、社交潮流等文化因素耦合在一起,给表情识别带来了极大挑战。在理想条件下表情识别性能良好的系统其在更复杂场景中的识别率可能会大幅降低。在单一数据库场景内进行的实验也无法保证表情识别系统的泛化能力。此外,传统原型表情理论也无法涵盖人们日常生活中所流露的复杂细微情绪。当前情感计算领域缺乏识别真实世界表情的精准数据和相应算法。面向真实世界表情识别,本文首先将基本表情类扩展到复合和混合表情,并构建了相应数据集,建立了面向复杂情感的表情流形分析理论,提出了跨场景表情迁移学习新方法,形成了从基础数据定义、精准识别到跨场景适应的系列工作。本论文的主要创新和贡献如下:(1)精准标注的大型真实世界表情数据库。针对表情图像标注主观性强的问题,本研究采用众包方式对从社交网络收集而来的数万图像进行了每张约40次的独立标注,并提出了基于期望最大化的可靠性估计算法,对标注者置信度和标签分布进行了联合优化和噪声过滤,获得了精准的标签分布,并从中挖掘出了双标签复合和多标签混合表情。最终构建了包含七类基本表情和十二类复合表情的真实世界情感面部数据库RAF-DB以及包含三十多类混合表情的真实世界情感面部多标签数据库RAF-ML,拓宽了经典表情描述模型的表达能力,为识别真实世界人脸表情提供了数据基础。(2)基于深度局部保持的原型表情识别方法。针对真实世界环境中与表情无关的复杂干扰因素,本研究提出了一种新的深度局部保持卷积网络DLP-CNN。该方法旨在通过提高类间距的同时保留局部样本的接近程度,从而增强深度特征的判别能力。通过将局部近邻的开创性思想与深度特征学习方法相结合,在网络的不断优化过程中,使得特征空间中不同类的表情样本足够分离的同时保持了同类表情样本内的局部紧凑性。在包括RAF-DB在内的四个不同数据库上的实验结果表明,所提出的DLP-CNN性能优于传统的手工设计特征以及其他深度学习方法,适用于真实世界场景下的表情识别。(3)基于深度双流形对齐的混合表情识别方法。针对真实世界中大量复杂且细微的混合表情,本研究基于流形学习提出了一种新的深度双流形卷积网络DBM-CNN。该方法假设标签分布为众包标注中人类对表情的感知向量,通过对齐特征流形空间和标签流形空间的局部近邻结构,将人类对表情的感知信息传递到深度特征中。该方法不仅建模了表情之间的共现关系,还通过驱使带有相似表情强度的样本分布更加连贯,使得特征空间中的样本具有连续平滑的情感强度过渡分布,从而成功捕捉到了混合表情中的细微变化。在包括RAF-ML在内的五个多样化数据库上的实验结果表明,该网络可作为高效的特征提取器并有效地应用到不同类型的表情识别任务之中。(4)基于迁移学习的跨场景表情识别方法。不同表情数据库由于其构建偏差和标注者情感感知偏差而形成了各异的表情识别场景。为了进一步提高跨场景表情识别能力,本研究提出了一种新的深度情感条件迁移网络ECAN。该方法在最小化跨场景的边缘分布差异的同时,通过充分挖掘目标场景上的潜在标签信息,使得属于同类但不同场景的数据在特征空间中也可以相互对齐并享有相近的分布结构,从而降低了跨场景的条件分布偏倚。此外,考虑到表情类别分布偏差问题,ECAN进一步引入了一个可学习的类别加权参数,使得重采样的源数据可以与目标数据共享相似的类别分布。在九个不同数据库上的跨场景实验结果表明,ECAN具有良好的跨场景泛化能力,在特征自适应的同时抵消了表情类分布不平衡的影响。综上所述,本文针对真实世界人脸表情识别研究中的图像精准标注、复杂表情识别和跨场景情感适应系列问题展开了深入的研究。首先拓宽了真实世界表情类别的范围,在此数据基础上针对表情复杂且细微的特性,将鉴别性流形学习和迁移学习的思想融入到深度学习框架之中。大量实验结果表明,本文提出的方法可以有效提高人脸表情识别的判别能力和泛化能力。