论文部分内容阅读
在人们的日常沟通交流中,作为一种无声的表现形式,人脸表情具有强大的表达能力。作为比人脸表情更为客观的表述方式,面部活动单元描述的是由于人脸肌肉拉扯而反映在面部的区域变化。Facial Action Coding System (FACS)系统将这一面部活动单元简称为Action Unit(AU)。在AU检测任务中,有两个非常重要的问题,一个是结构化的区域学习,另一个是多标签学习。在结构化区域学习研究中,着重强调AU与人脸的局部区域有着紧密的联系,比如AU12描述的是嘴角上扬,我们可以推断,对于每个AU而言,具有表达能力的区域是稀疏的。而现有的特征学习方法忽略了这一点,大多数的学习方法着重于单个特征的选择。在多标签学习研究中,根据人脸的解剖学分析,32个人脸面部活动单元(AU)单个出现或者联合出现,就可以产生几乎所有的人脸表情。所以AU之间具有很强的关联性。比如AU6 (脸颊上扬)与AU12 (嘴角上扬)经常同时出现表达微笑的表情,而AU24 (紧闭嘴巴)与AU25(嘴唇分开),由于肌肉运动的限制,很少同时出现。这种正的相关性与负的竞争关系应当被考虑。而大部分的分类器属于二分类学习,这些学习方法忽略了 AU之间的关系。为了充分利用AU之间的关系的同时,为每个AU选择较为稀疏的人脸表达区域,本课题提出了结构化多标签学习方法。结构化区域的学习方法主要是获取具有判别信息的人脸区域。多标签学习方法利用AU之间的关系,以期减少模型的参数以及提高模型的泛化能力,建立多标签分类器。基于此项观察,本课题从两种角度进行结构化多标签学习算法研究:一种是基于判别式的学习算法JPML,另一种是基于生成式的深度网络模型DR.ML。在联合的结构化多标签学习方法(JPML)中,利用结构化学习方法,对每个AU得到较为稀疏的人脸表达区域。同时利用AU之间的依存关系构建了多标签分类器,其中AU之间的关系学习是通过350, 000,帧数据统计得来。综合以上两种学习特点,本论文是本领域内第一次联合多个AU检测任务进行结构化多标签学习(JPML)。为了证明所提算法的有效性,本算法在现有的三个数据集上进行测试,取得了目前该领域此类别算法的最好的结果。并将JPML扩展到通用的基本的表情识别当中,从准确率以及可视化得到的具有鉴别力的表情区域来看,都可与目前相关表情识别领域的算法相当。随着深度学习的不断发展和AU识别领域实验数据的日益增多,如何构建深度模型对现有的大量的复杂数据进行分析,成为亟待解决的问题之一。JPML的研究工作显示AU对应着稀疏的人脸活动区域,所以如何在深度模型中引入区域信息从而有效地识别可鉴别的人脸活动区域成为首要解决的问题。另一方面,对于AU检测任务来说,多标签学习是一种必要且自然的描述方式。最后AU检测任务是一个非线性程度特别高的问题。根据以上研究讨论,我们提出了基于卷积神经网络的结构化多标签学习的深度模型(DRML)。不同于JPML的交替式的复杂模型选择,DRML通过简单的区域层的学习,使得所学习到的模型可以获取更具有鉴别能力的人脸活动区域。该区域层综合了现有的深度学习卷积层的优点,并针对性结合了人脸活动单元分析的领域知识。同时用生成式模型对多个AU同时建模。此外,摒除JPML的交替式的学习方法,DRML选择一种端对端的非线性模型学习方法。通过对现有的两个复杂的数据集的测试,DRML不仅在数量上提高了性能,并且在性能上突出了模型本身区域选择的特性。最后为了证明结构化多标签学习的方法可以扩展到计算机视觉的相关领域。首先对二分类人脸表情识别,多标签表情识别,进行了详细地算法讨论,并通过实验定性以及定量的证明了结构化多标签学习方法的有效性。同时对结构化多标签算法在行为识别以及场景识别的应用进行了讨论。综合以上讨论,本文的主要贡献有以下几点:1利用特征之间的结构化的区域信息和AU之间的依存关系,本文提出了 JPML算法对人脸区域进行稀疏性选择并且构建了多标签学习器。2由于AU之间具有依存关系,通过对350,000帧数据的统计分析,本文建立了 AU 之间的 positive correlation 和 negative correlation 两种关系。并且所发现的AU之间的关系与FACS描述手册一致。3本文建立了新的神经网络学习层,使得DRML可以获得更具有鉴别能力的人脸活动区域。4 DRML是一种端对端的非线性学习方法,可以更贴近的描述人脸活动单元识别中的复杂数据。5我们将JPML扩展到通用的六种基本表情识别中,在实验的测试中,JPML可以得到不同表情的共有的和特有的有效区域,并且提高了识别准确率。6结构化多标签学习可以迁移到计算机视觉的其他领域,我们对于多标签的表情识别、行为识别以及场景识别进行了实验验证和讨论。