论文部分内容阅读
在现如今,人脸的面部信息识别被广泛的应用在生活的方方面面。人脸的面部信息识别是指在检测出图片中的人脸的同时并分析人脸的所蕴含的信息,如辨别人脸的姓名、性别、年龄、种族、姿态和表情等。其中人脸检测是人脸面部信息识别的基础,人脸识别则可以确认人的身份,方便人脸面部信息的记录,而人脸表情识别可以识别用户心情、精神状态等情况,在医疗、安防、人机交互等方面有着巨大的应用场景。本文主要研究人脸面部信息识别中的人脸检测、人脸识别以及人脸表情识别这三个问题。在人脸检测方面,由于深度学习在图像领域上的优越性,越来越多的学者运用它来解决人脸检测的问题。目前基于深度学习的人脸检测方法主要可以分为三类:一类是直接通过卷积神经网络进行特征提取后,进行分类和边框回归的One Stage检测方法;一类是先通过候选区域选择算法提取出大量候选区域,在通过卷积神经网络进行特征提取,在对提取的特征进行分类和回归的Two Stage检测方法;还有一类是,构建多个弱分类的卷积神经网络,在通过级联多个网络,来实现人脸检测的级联人脸检测算法。本文分别研究了三类网络各自的优异性,最终选取级联的人脸检测方法,设计了基于MTCNN进行改进来实现了基于级联人脸检测方法。使用Wider Face公开人脸数据集进行训练,在FDDB数据集上进行了性能评估,并对检测速度进行了对比,发现所提出的方法取得了较好的测试结果。在人脸识别方面,由于基于深度学习的方法多数存在网络层数深、参数数量大、训练速度慢等问题。本文通过改进人脸残差网络,将残差网络中的传统卷积替换为深度可分离卷积,在一定程度上改善了参数数量过大和训练速度慢的问题。同时针对Softmax损失函数可分性的不足,将损失函数改进为三元组损失函数进行模型的优化。通过实验发现,三元组损失使得类内间距更小,类间间距更大,使得人脸特征可以更好的被识别;深度可分离卷积在识别率变化不大的情况下,使网络参数减少了45%左右;同时在CASIA-WebFace人脸数据集上进行训练,在LFW人脸检测数据集上进行准确率评估,准确率达到了99.36%。在人脸表情识别方面,本文选取了AlexNet、VGGNet和ResNet三个网络模型,并针对人脸表情识别的需求,对上述三个深度学习的网络模型进行相应的改进。同时考虑到公开的人脸表情数据集,通常存在着数据量较小、数据分布不均匀等问题,在数据预处理时进行了数据对齐和数据的增强,在网络训练的过程中针对不同的网络模型采用不同的超参数,在ResNet这一网络模型上采用了迁移学习进行辅助训练。通过在Fer2013人脸表情数据集和CK+人脸表情数据集分别进行训练和测试,对比各自的准确率和分析混淆矩阵,在充分考虑模型的规模和识别率等问题之后,最终选用改进的VGGNet表情识别网络作为人脸表情识别模型,在Fer2013和CK+数据集上分别获得了99.31%和70.43%的准确率。在现实生活中,只是单独的进行面部信息的检测与识别是远远不行的,还需要构建一个人脸多种面部信息的同步识别系统。通过实现人脸面部信息的多模态、同步识别,使面部信息识别可以应用在不同的场景下,具有更高的使用价值。本文通过结合所设计的人脸检测、人脸识别和人脸表情识别算法,构建了一个人脸面部信息同步识别系统,实现了人脸与人脸表情信息的同步识别。