基于深度学习的真实世界人脸表情识别研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:fq8628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人脸表情识别旨在从面部特征识别人类情绪。理解不同类别的面部表情有助于辅助机器模型分析人类情感感知状态并做出相应判断和回应。自动面部表情识别由于其在社交媒体分析和人机交互中的众多潜在应用而成为了情感计算和计算机视觉领域的热点研究话题。经典原型表情理论认为各地区和种族的人类都具有七类一致的基本表情。早期表情识别研究遵从该经典理论,基于实验室控制条件下的摆拍表情数据库进行单一场景内的七类基本表情分类。然而,随着互联网的普及以及深度学习技术的发展,面向实际应用的工作逐渐从实验室统一环境下的摆拍表情转移到了更具挑战性的现实生活自然表情中。真实世界包含多种场景和动态变化,光照、姿态、遮挡等环境因素和民族地区、社交潮流等文化因素耦合在一起,给表情识别带来了极大挑战。在理想条件下表情识别性能良好的系统其在更复杂场景中的识别率可能会大幅降低。在单一数据库场景内进行的实验也无法保证表情识别系统的泛化能力。此外,传统原型表情理论也无法涵盖人们日常生活中所流露的复杂细微情绪。当前情感计算领域缺乏识别真实世界表情的精准数据和相应算法。面向真实世界表情识别,本文首先将基本表情类扩展到复合和混合表情,并构建了相应数据集,建立了面向复杂情感的表情流形分析理论,提出了跨场景表情迁移学习新方法,形成了从基础数据定义、精准识别到跨场景适应的系列工作。本论文的主要创新和贡献如下:(1)精准标注的大型真实世界表情数据库。针对表情图像标注主观性强的问题,本研究采用众包方式对从社交网络收集而来的数万图像进行了每张约40次的独立标注,并提出了基于期望最大化的可靠性估计算法,对标注者置信度和标签分布进行了联合优化和噪声过滤,获得了精准的标签分布,并从中挖掘出了双标签复合和多标签混合表情。最终构建了包含七类基本表情和十二类复合表情的真实世界情感面部数据库RAF-DB以及包含三十多类混合表情的真实世界情感面部多标签数据库RAF-ML,拓宽了经典表情描述模型的表达能力,为识别真实世界人脸表情提供了数据基础。(2)基于深度局部保持的原型表情识别方法。针对真实世界环境中与表情无关的复杂干扰因素,本研究提出了一种新的深度局部保持卷积网络DLP-CNN。该方法旨在通过提高类间距的同时保留局部样本的接近程度,从而增强深度特征的判别能力。通过将局部近邻的开创性思想与深度特征学习方法相结合,在网络的不断优化过程中,使得特征空间中不同类的表情样本足够分离的同时保持了同类表情样本内的局部紧凑性。在包括RAF-DB在内的四个不同数据库上的实验结果表明,所提出的DLP-CNN性能优于传统的手工设计特征以及其他深度学习方法,适用于真实世界场景下的表情识别。(3)基于深度双流形对齐的混合表情识别方法。针对真实世界中大量复杂且细微的混合表情,本研究基于流形学习提出了一种新的深度双流形卷积网络DBM-CNN。该方法假设标签分布为众包标注中人类对表情的感知向量,通过对齐特征流形空间和标签流形空间的局部近邻结构,将人类对表情的感知信息传递到深度特征中。该方法不仅建模了表情之间的共现关系,还通过驱使带有相似表情强度的样本分布更加连贯,使得特征空间中的样本具有连续平滑的情感强度过渡分布,从而成功捕捉到了混合表情中的细微变化。在包括RAF-ML在内的五个多样化数据库上的实验结果表明,该网络可作为高效的特征提取器并有效地应用到不同类型的表情识别任务之中。(4)基于迁移学习的跨场景表情识别方法。不同表情数据库由于其构建偏差和标注者情感感知偏差而形成了各异的表情识别场景。为了进一步提高跨场景表情识别能力,本研究提出了一种新的深度情感条件迁移网络ECAN。该方法在最小化跨场景的边缘分布差异的同时,通过充分挖掘目标场景上的潜在标签信息,使得属于同类但不同场景的数据在特征空间中也可以相互对齐并享有相近的分布结构,从而降低了跨场景的条件分布偏倚。此外,考虑到表情类别分布偏差问题,ECAN进一步引入了一个可学习的类别加权参数,使得重采样的源数据可以与目标数据共享相似的类别分布。在九个不同数据库上的跨场景实验结果表明,ECAN具有良好的跨场景泛化能力,在特征自适应的同时抵消了表情类分布不平衡的影响。综上所述,本文针对真实世界人脸表情识别研究中的图像精准标注、复杂表情识别和跨场景情感适应系列问题展开了深入的研究。首先拓宽了真实世界表情类别的范围,在此数据基础上针对表情复杂且细微的特性,将鉴别性流形学习和迁移学习的思想融入到深度学习框架之中。大量实验结果表明,本文提出的方法可以有效提高人脸表情识别的判别能力和泛化能力。
其他文献
本文以环氧氯丙烷与四溴双酚A为原料,采用先醚化后环化的方法得到溴化环氧树脂中间体,通过对原工艺进行改进,同时选择合适的聚合催化剂,合成了高热稳定性EP型溴化环氧树脂。探究了醚化反应温度、催化剂种类、环化碱用量及浓度等因素对溴化环氧树脂聚合中间品的影响。实验结果表明,醚化过程中采用四甲基氯化铵,反应温度为70~80℃,醚化反应3h;环化反应采用甲苯为溶剂并加入占四溴双
指数和是数论中的一个重要分支。在本文中,我们主要研究指数和在循环码和其它方面的应用,其中包括循环码的重量分布,单项式函数的Walsh变换,码本,信号集,和强正则图。循环码的重量分布在编码和译码中有着重要意义。在本文中,我们主要研究对偶码具有两个不同阶零点的循环码的重量分布,运用高斯周期和高斯和,首次给出了这类循环码的重量分布,突破了传统的同阶零点的情形。令qF为q个
企业、组织及机构会设计自身的Logo,并有详细的Logo使用规范,为了使Logo符合使用规范,大型企业逐渐开始对文件中Logo的使用正确性进行检查。目前企业采用人工识别定位Logo的模式开展检查工作,这种模式人力成本耗费巨大,并且存在漏检、时效性不高、记录无法存档等问题,效果不佳。本文首先讨论采用YOLO识别模型来完成识别定位任务,通过网络爬虫技术和数据增强技术制作
文章阐述了未来战争所具有的动态复杂特性,结合文献分析了目前国内外主流效能评估方法及其不足之处,以及未来的主要差距及挑战。基于未来战场需要面对的作战自主可重构的需求,文章开创性地提出了一种利用机器学习方法基于效能指标挖掘的战场自主可重构框架,通过挖掘核心指标,围绕核心指标参数重构作战能力,最终实现以效能最大化为指引的动态战场要素自主可重构。
在本文中,针对OFDM传输系统中高功率放大器对信号的失真放大问题进行一系列的研究,目前广泛流行的是自适应数字预失真算法。在一般的预失真算法中,主要有两类:无记忆非线性预失真和有记忆非线性预失真。无记忆非线性预失真主要是比较高功率放大器的反馈信号和已知输入信号的幅度和相位,通过两者的误差来估计预失真器的各种修正参数。而有记忆非线性预失真主要是综合考虑宽带高功率放大器非线性和记忆性对信号的污染,需要同
近年来,我国新疆东准噶尔地区晶质石墨找矿取得重大突破,显示出良好的晶质石墨成矿潜力。然而,因发现时间晚,石墨矿床研究程度整体偏低,目前的研究工作仅限于单个矿床,缺乏对东准噶尔石墨矿床的系统性研究,这不但制约了对东准噶尔地区石墨矿成因及成矿规律的准确认识,而且直接影响该地区下一步晶质石墨找矿工作的勘查部署和大型石墨资源基地建设。本论文选择新疆东准噶尔地区典型石墨矿床,
《义务教育英语课程标准(2011年版)》明确指出,在英语教学中,小学三四年级学生的培养重点在于对图画的理解以及对单词的理解上。具体而言,学生能够通过简易的词语以及丰富的图片大致明白故事所表达的意蕴,从中也能够知道,在小学阶段教师应重视培养学生的英语阅读能力。小学英语课程的根本目标在于促进小学生英语学习兴趣的生发,使小学生形成一定的英语语感从而为接下来深入的英语学习打
城市诞生表征着一种新的文明形态,其从产生之日起就寄托着人类对美好生活的向往和承载着人类对“安居乐业”的崇高理想追求。城市发展的历史实践表明城市确实为人类生活带来了巨大便利,使得我们的生活变得更加美好。城市化的急剧发展与城市现代化的全球化推进使得人类社会步入了城市社会时代,同时,也使得城市深陷现代性的桎梏。现代性是现代社会最本质的特征,现代社会的弊端与危机表现为现代性
教学内容:苏教版《义务教育教科书·数学》六年级下册总复习中有关正比例和反比例的内容。教学目标:1.使学生通过知识梳理进一步完善与正、反比例相关的知识结构。2.使学生通过知识回顾、拓展应用等活动提高整体学习的能力,增强数学应用和创新意识。
混沌是一种不规则的复杂运动形式,广泛地存在于各个领域。由于混沌运动表现出的对初值的极端敏感性、高度随机性以及非线性方程的确定性,使得它一直受到人们的广泛关注。混沌同步作为混沌研究的重要方向,在保密通讯、图像处理等应用方面取得了可喜的进展。本文的主要研究内容如下:(1)对Liu混沌系统的同步方法进行了研究,分别构造了Liu系统在无干扰和有干扰下的同步观测器。首先采用简单的线性反馈实现了Liu系统的同
学位