自然场景中面部表情识别方法的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:niyon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面部表情识别作为情感计算领域的重要研究方向之一,在机器人交互、医疗诊断、安全驾驶等人机交互系统中被广泛应用。目前的面部表情识别因场景不同而差异较大,实验室场景中的表情大多是正面的、清晰的、带有表演性的图像,其相关算法较为成熟,识别准确率较高。而自然场景中的表情由于更接近工程实际应用,其表情具有数据不均衡、遮挡及多姿态等特点,这些特点使得面部表情识别的应用依然存在挑战。而目前针对表情数据不均衡问题开展的研究又较少,其相关表情识别算法在遮挡及多姿态的数据集上识别准确率也较低。因此,本文主要针对自然场景中表情识别的数据不均衡、遮挡及多姿态问题开展研究,主要工作如下:(1)针对自然场景中表情识别存在的数据不均衡问题,提出了一种基于生成对抗网络和主动学习的数据增强方法。该方法通过Star GAN来生成表情样本,针对生成样本存在的噪声问题,使用主动学习来筛选信息量较大的样本,对数量较少的表情类别进行数据增强,同时将通道注意力模块与残差网络结合作为表情识别基分类器。本文所提出的数据增强方法在RAF-DB数据集上进行实验验证,结果表明其识别准确率达到85.16%,相比其它数据不均衡的解决方法有着更好的效果。(2)针对自然场景中表情识别存在的遮挡及多姿态问题,提出了一种基于弱监督学习的局部特征增强的表情识别模型。该模型使用弱监督学习得到注意力特征图,通过注意力特征图增强局部特征;由于二阶特征能够捕捉面部的扭曲程度,在双线性注意力模块添加协方差池化,提取面部二阶统计量特征;并采用度量损失Arc Face Loss作为模型的目标损失函数,解决面部表情存在的类间差异小、类内差异性大的问题,提升了模型学习可判别性特征的能力。通过实验验证,表明本文所提出的表情识别模型在RAF-DB、Affect Net和FED-RO上分别达到87.04%、61.05%和67.39%的识别准确率,均优于对比文献的实验结果。并通过跨数据集实验,验证了模型具有较好的泛化性能。综上所述,本文所提出的数据增强方法能够有效地解决自然场景中表情识别的数据不均衡问题,从而提升了表情识别准确率;本文所提出的基于弱监督学习的局部特征增强的表情识别模型能够在各种场景的表情数据集上取得较好的识别结果。
其他文献
在我国目前的司法证明研究领域,所关注的对象主要集中在证据方面,对与其密切相关的证明则较少受到关注,而对司法证明概率论的问题更是鲜有探讨。与西方的研究态势相比,“司法
最近日渐成熟的第五代(5G)无线网络技术已在世界范围内进行部署。对下一代(6G)通信的基础研究也在逐渐开始,而随着6G系统所需的信道容量已远超当今的信道容量,具有比射频频段
三元复合驱采油技术是现阶段大庆油田稳产、增产的重要技术手段,然而,大庆油田实施强碱三元复合驱的区块在生产过程中,结垢问题日益突出,严重影响了油田的正常生产。堵塞物主要成分包括石油重组分、聚合物包裹的碳酸盐垢、硅垢等。由于增产弹含能材料燃烧使得燃烧区域附近的水体进入超临界状态,可对石油重组分、聚合物裂解改质,同时燃烧产生的酸性气体形成酸液,对碳酸盐垢、硅垢酸化溶蚀,达到解堵效果。本论文对三元复合驱的
伴随着信息技术的蓬勃发展,机构和个人用户产生的数据量急剧增大,导致WEB用户难以高效获取有价值的信息。推荐系统主动预测用户需求,为用户推荐可能感兴趣的数据,是抑制信息
焦虑一直以来无论作为人格特质还是情绪变量都是当今心理学研究的热点问题,个体在焦虑情绪下会引发攻击性行为,而过高的攻击性会不仅影响自己与他人的身心健康,更会不利于社
为了满足应用需求,获得高分辨率的卫星图像,需要发展大口径、长焦距的空间遥感光学系统,但是受到人力和物力资源的限制,给高分辨率空间遥感器的研究和发射带来很大的阻碍。因
mTOR是个多功能的蛋白,除了通过其底物S6和4EBP调控蛋白质翻译,还在自噬、细胞周期、细胞运动、分化等多个层面调控细胞的生命活动。研究表明,AKT-mTOR信号轴是调控肌腱发育
为了考察母语与二语对工作记忆Stroop效应的影响及其神经机制,以中、英文词为实验材料,以国内大学生为被试进行了实验研究。行为结果显示:两种实验材料“不一致”反应时均大
人脸年龄估计是人脸属性预测领域的关键任务,它的目标是实现对给定人脸图片的准确年龄估计。目前,得益于卷积神经网络的迅速发展,人脸年龄估计的准确度也得到了明显的提升。
自然场景文字信息在人类的日常生活中扮演着重要角色,例如商标上的文字可以提供商品信息、路牌上的文字可以指示方向等。场景文字的自动化检测和识别能够帮助人们更好地理解