基于情感特征解耦学习的表情识别方法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:zhpf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面部表情识别在情感计算中占有重要地位,已被广泛应用于人机交互、驾驶者异常监测、疼痛估计、远程教育等领域。人类表达情感的方式并不相同,即使传递同一种情感,面部表情也因人肤色、性别等身份属性的不同存在差异。目前常用的深度学习方法能够有效地提取图像语义特征完成表情识别,但由于现有的表情数据集样本偏少,仍难以学习到与个人身份无关的表情特征。本文研究了基于情感特征解耦学习的表情识别方法以解决表情特征与身份特征之间的耦合问题,主要工作包括:(1)针对表情数据集样本数少的问题,研究了基于多任务特征空间解耦的表情识别方法。利用多任务学习的隐式数据增强能力间接扩充样本空间,提高模型在少样本情况下的泛化性能;考虑到个人身份对表情识别的影响,利用属性解耦合方法,分别将表情属性和身份属性映射到不同隐空间,通过表情图像重构任务监督编码器训练,从而实现表情特征与身份特征解耦合。(2)研究了基于表情残差学习的表情识别方法。利用表情映射模型将输入表情映射生成中性表情,学习面部表情特征的解耦表示;通过表情映射获取表情残差图,针对不同特征层级的表情残差设计不同结构的基分类器;通过特征感知层自动学习特征的重要性,以减少基分类器全连接层特征冗余;最后构建多基分类器集成决策识别模型识别不同表情残差,从而降低个人身份对表情识别的影响。(3)在标准表情数据集上验证了本文提出的表情识别方法。通过在CK+、RaFD数据集的对比实验,并可视化解耦前后特征分布图,验证了基于多任务特征空间解耦的表情识别方法能够有效实现表情特征与身份特征解耦合,减弱个人身份属性对表情识别的影响,提高模型识别精度;同时设计扩展实验进一步验证了该方法的泛化性能和识别能力。通过在Oulu-CASIA和RaFD数据集上的对比实验结果,验证了基于表情残差学习的表情识别方法能够有效利用表情残差中隐藏的表情信息,提升模型识别精度;同时通过消融实验进一步验证了本文集成决策识别模型的可靠性。
其他文献
高速运动物体具有速度快、运动非线性等特点,对于高速运动物体的跟踪具有广泛的应用场景,如生物医学、能源化工、军事目标检测与拦截等。虽然目前众多学者在高速运动物体跟踪领域的研究取得了一定成果。Camshift是Meanshift的改进算法,解决了跟踪框无法变化的问题,同时利用HSV代替RGB,一定程度的解决了光线干扰的问题。但是对于高速运动物体的跟踪,使用Camshift算法会遇到两个问题,一是Cam
随着电子信息技术的发展,集成电路芯片被广泛应用于军事和民生等领域,对国家和社会安全发挥着重要的作用。集成电路设计与生产相互分离、各模块设计相互独立的产业模式,使得芯片不可避免地存在硬件安全隐患。硬件木马是指在芯片设计或制造过程中对电路进行有意的修改或植入的结构,导致电路出现恶意的行为。硬件木马的危害巨大,因此研究硬件木马检测技术可以保证芯片安全,对国家和社会安全具有重要的意义。本文首先基于AES加
随着人工智能的发展,基于深度学习的众多领域不再过分依赖于大量数据,其能够利用以往的经验针对新的问题从少量的样本中进行有效的学习。在现实中,人们也将必然面临更多数据不足的问题,因此如何让机器像人类一样能够通过已有的学习经验快速从少量标签样本中进行有效学习实现分类,成为一个重要的研究方向。在近几年,小样本的分类算法层出不穷,从迁移网络、度量空间以及数据增强等方向的研究都有了很多突破性的进展。但是,基于
近年来,随着智慧城市的不断建设,目标跟踪越发重要。视觉目标跟踪需要在视频序列的每一帧实现对目标的定位与跟踪。复杂环境及目标自身变化等问题是目标跟踪技术面临的困难。因此,视觉目标跟踪领域的重点任务就是研究具有较高精确度与稳定性与目标跟踪算法。相关滤波类跟踪算法由于兼具高速与高精确度,受到了学者们的广泛关注和研究。然而,现有相关滤波类跟踪算法仍存在以下问题:一是边界效应会使训练样本对目标表示偏离真实,
[db:内容简介]
随着无人机技术的发展,无人机拍摄在航空摄影,地形测绘,军事侦察等方面具有广泛的应用前景。本文主要研究无人机俯拍视频中的目标识别问题,分析现有的运动目标识别方法,提出融合目标跟踪与图像识别的运动目标识别方法。以无人机俯拍视频中的运动目标作为研究对象,进行跟踪标定及分类识别。针对识别方法的实时性问题,提出基于数据去冗余的改进方法,通过仿真实验验证基于视频流的无人机目标识别方法。本文主要研究内容如下:(
图像质量评价在数字图像处理技术中占据着重要地位,分为主观图像质量评价和客观图像质量评价两种。主观图像质量评价需要消耗大量的人力,且无法嵌入到实时应用的系统中去,因此需要研究能够适用于多种场合的客观图像质量评价方法。客观图像质量评价方法分为全参考、部分参考和无参考三种。在多数情况下,参考图像难以获得,因此无参考图像质量评价方法具有更广泛的应用场景。无参考图像质量评价算法BRISQUE(Blind/R
数字图像是大数据时代人类感知与传播信息的重要载体,在数字图像产生与保存的过程中会引入不同程度的噪声,图像质量差会对信息的获取产生很大的影响,使得后续对于图像的处理存在极大的不确定性,阻碍图像处理技术的发展。图像技术在多领域的普遍应用,使得数字图像质量增强技术的研究已经成为图像处理方面十分具有现实意义的内容,图像去噪作为进行图像研究的预处理问题,具有十分深远的意义。图像去噪判别模型由于其良好的去噪性
受到传感器成像机理与材料工艺的限制,由传感器采集到的单一类型图像数据难以全面、准确、清晰地描述场景中的信息。多源成像传感器可提供同一场景下类型不同的图像数据。多源图像融合技术的目的是尽最大可能提取来自多源信道图像数据的互补信息,生成包含更多场景信息的融合图像。现阶段,多源图像融合技术在数码摄像、视频监控、医疗诊断和遥感目标检测等领域得到了广泛应用。本文针对多聚焦图像融合和红外与可见光图像融合中信息
随着深度学习的发展,人工智能对人类社会生活带来了很大的便利。视频文本描述作为视频内容分析的重要分支,推动着视频检索与视频个性化推荐的进一步发展。视频文本描述算法需要对视频中包含的视觉内容使用自然语言进行文本描述,且要求该描述语句具有准确性、可读性与流畅性。目前在基于编解码模型的视频文本描述算法的研究中,将视频高级语义信息作为视频语义特征,能够有效地辅助解码模型更准确的将视频视觉特征转化为文本描述。