面部活动单元的结构化多标签学习

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:sduheaven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人们的日常沟通交流中,作为一种无声的表现形式,人脸表情具有强大的表达能力。作为比人脸表情更为客观的表述方式,面部活动单元描述的是由于人脸肌肉拉扯而反映在面部的区域变化。Facial Action Coding System (FACS)系统将这一面部活动单元简称为Action Unit(AU)。在AU检测任务中,有两个非常重要的问题,一个是结构化的区域学习,另一个是多标签学习。在结构化区域学习研究中,着重强调AU与人脸的局部区域有着紧密的联系,比如AU12描述的是嘴角上扬,我们可以推断,对于每个AU而言,具有表达能力的区域是稀疏的。而现有的特征学习方法忽略了这一点,大多数的学习方法着重于单个特征的选择。在多标签学习研究中,根据人脸的解剖学分析,32个人脸面部活动单元(AU)单个出现或者联合出现,就可以产生几乎所有的人脸表情。所以AU之间具有很强的关联性。比如AU6 (脸颊上扬)与AU12 (嘴角上扬)经常同时出现表达微笑的表情,而AU24 (紧闭嘴巴)与AU25(嘴唇分开),由于肌肉运动的限制,很少同时出现。这种正的相关性与负的竞争关系应当被考虑。而大部分的分类器属于二分类学习,这些学习方法忽略了 AU之间的关系。为了充分利用AU之间的关系的同时,为每个AU选择较为稀疏的人脸表达区域,本课题提出了结构化多标签学习方法。结构化区域的学习方法主要是获取具有判别信息的人脸区域。多标签学习方法利用AU之间的关系,以期减少模型的参数以及提高模型的泛化能力,建立多标签分类器。基于此项观察,本课题从两种角度进行结构化多标签学习算法研究:一种是基于判别式的学习算法JPML,另一种是基于生成式的深度网络模型DR.ML。在联合的结构化多标签学习方法(JPML)中,利用结构化学习方法,对每个AU得到较为稀疏的人脸表达区域。同时利用AU之间的依存关系构建了多标签分类器,其中AU之间的关系学习是通过350, 000,帧数据统计得来。综合以上两种学习特点,本论文是本领域内第一次联合多个AU检测任务进行结构化多标签学习(JPML)。为了证明所提算法的有效性,本算法在现有的三个数据集上进行测试,取得了目前该领域此类别算法的最好的结果。并将JPML扩展到通用的基本的表情识别当中,从准确率以及可视化得到的具有鉴别力的表情区域来看,都可与目前相关表情识别领域的算法相当。随着深度学习的不断发展和AU识别领域实验数据的日益增多,如何构建深度模型对现有的大量的复杂数据进行分析,成为亟待解决的问题之一。JPML的研究工作显示AU对应着稀疏的人脸活动区域,所以如何在深度模型中引入区域信息从而有效地识别可鉴别的人脸活动区域成为首要解决的问题。另一方面,对于AU检测任务来说,多标签学习是一种必要且自然的描述方式。最后AU检测任务是一个非线性程度特别高的问题。根据以上研究讨论,我们提出了基于卷积神经网络的结构化多标签学习的深度模型(DRML)。不同于JPML的交替式的复杂模型选择,DRML通过简单的区域层的学习,使得所学习到的模型可以获取更具有鉴别能力的人脸活动区域。该区域层综合了现有的深度学习卷积层的优点,并针对性结合了人脸活动单元分析的领域知识。同时用生成式模型对多个AU同时建模。此外,摒除JPML的交替式的学习方法,DRML选择一种端对端的非线性模型学习方法。通过对现有的两个复杂的数据集的测试,DRML不仅在数量上提高了性能,并且在性能上突出了模型本身区域选择的特性。最后为了证明结构化多标签学习的方法可以扩展到计算机视觉的相关领域。首先对二分类人脸表情识别,多标签表情识别,进行了详细地算法讨论,并通过实验定性以及定量的证明了结构化多标签学习方法的有效性。同时对结构化多标签算法在行为识别以及场景识别的应用进行了讨论。综合以上讨论,本文的主要贡献有以下几点:1利用特征之间的结构化的区域信息和AU之间的依存关系,本文提出了 JPML算法对人脸区域进行稀疏性选择并且构建了多标签学习器。2由于AU之间具有依存关系,通过对350,000帧数据的统计分析,本文建立了 AU 之间的 positive correlation 和 negative correlation 两种关系。并且所发现的AU之间的关系与FACS描述手册一致。3本文建立了新的神经网络学习层,使得DRML可以获得更具有鉴别能力的人脸活动区域。4 DRML是一种端对端的非线性学习方法,可以更贴近的描述人脸活动单元识别中的复杂数据。5我们将JPML扩展到通用的六种基本表情识别中,在实验的测试中,JPML可以得到不同表情的共有的和特有的有效区域,并且提高了识别准确率。6结构化多标签学习可以迁移到计算机视觉的其他领域,我们对于多标签的表情识别、行为识别以及场景识别进行了实验验证和讨论。
其他文献
引子:我十二岁时在北京,教我峨眉功夫的陈爷是自流井人。老爷子跟我提过他的一位老师兄,因为小儿麻痹,而落下了右腿跛脚。为了弥补先天不足,这位老前辈下了大功夫,每天练功至少十个小时,曾经昏死过多次,后来终于成就了踏雪无痕的境界。陈爷的师傅说:这功夫可以修剑仙了……我少年时就崇尚剑客,听陈先生讲过很多剑客的故事,至今仍时常读一读《蜀山剑侠传》,因此也一直留心剑客和剑仙的功夫。
期刊
学位
学位
学位
学位
杜甫,千百年来让人仰望的现实主义诗人,向世界展示的不仅是其不朽的作品,还有中华民族知识分子伟大的人格。享有"诗圣"之美誉,为历代文人士子们的学习典范,同时,其作品以其记实性与叙事性而被誉为"诗史"。"诗史"的称号最早在唐代孟启的小说《本事诗》中被提起:"杜逢禄山之难,流离陇蜀,毕陈于诗,……故当时号为‘诗史’"。宋祁在《新唐书杜甫传》中也说:"甫又善陈时事,律切精深,至千言不少
期刊
《钱注杜诗》是明清之际的著名文学家钱谦益所著,该著作中所体现的文学主张在明末清初时期对文坛有着非常大的影响。钱谦益曾三笺杜诗,自从《读杜小笺》中第一次提出诗史观念,推出了杜诗以史证诗的观点之后,就不断将其深化发展,《读杜二笺》对他的诗史观的阐述有所补充,提出了以诗正史说法,而《钱注杜诗》则进一步深化了诗史观,将以诗补史纳入了史诗互证的观点之中。《钱注杜诗》在强调了杜诗写作技巧的同时,所反映出的诗史
在不同的领域中,研究者通常应用非线性发展方程来描述相关领域的非线性现象。从理论层面上探索各类非线性问题,最直观的方法就是得到对应非线性发展方程的解析解。本文的主要内容是通过研究光学、流体力学以及凝聚态物理等诸多领域中的非线性发展方程,讨论连续与离散物理模型中的畸形波、孤子、lump波和周期波等不同的非线性现象。本文的主要安排如下:第一章简要介绍以孤子、畸形波和lump波解为代表的非线性波的研究进展
进入21世纪以来,复杂网络科学在各个科学领域都受到了广泛关注。复杂网络的相关概念为人们认识客观系统复杂性提供了一个切入点,并对复杂系统建模提供了坚实的基础。同时,基于它发展起来的一系列方法也为大家分析和控制复杂系统提供了有力的工具。目前,复杂网络领域中有两个方面尤为受大家关注:其一是网络结构对于系统的功能和动力学行为的影响,即从结构到动力学输出的所谓“正问题”。特别是当简单的动力学单元通过复杂的结
随着移动互联网高速发展,传统的网络管理技术在性能管理以及安全管理领域的发展相对滞后,成为了移动互联网发展的瓶颈。因此,针对移动互联网的网络管理技术的研究具有十分重要的理论意义和应用价值。本文针对性能管理中的用户感知质量(Quality of Experience,QoE)评价准确性的问题、安全管理中的有效构建病毒检测模型问题以及性能管理中的有效分析LOG日志问题等三个大方面展开了深入的研究。首先,