论文部分内容阅读
生物特征识别已经成为了当今社会不可或缺的一部分,它被应用到了生活、商业以及国家安全之中。本文主要研究的是深度学习中的卷积神经网络在人脸识别与声纹识别领域上的运用。本文针对现有的深度学习在识别上的问题,进行了一系列研究,并在已有的算法上进行改进,提出了自己在卷积神经网络的人脸与声纹识别的改进算法。本文的算法在不影响识别准确率的情况下,减少了网络的训练参数以及训练时间,并增强了网络泛化能力,减少过拟合的可能性。具体如下:(1)通过比较卷积神经网络池化层的几种池化方法,提出了一种改进的池化方法。该方法是将激活函数后激活值进行平方处理,将平方数概率分配后再进行随机池化。使用这种方法不仅可以很好地保留最大值池化方法对于图像纹理特征的提取,还将随机池化的优点运用到其中,保留了图像中的隐含特征被提取的可能性,有效的增强了网络的泛化能力。(2)由于识别的图像可能会因为种种因素干扰而导致识别效果不好,所以针对图像受光照影响、数量少以及图像质量不佳等情况,在图像大小调整和图像去均值的预处理的基础之上,提出了使用直方图均匀化降低光照影响,随机剪裁扩大图片数量减少网络过拟合可能性,使用Gabor小波变换来进行图像增强等操作。接着使用Faster R-CNN网络对LFW数据库进行人脸检测试验,并针对传统的VGG-16网络的三个全连接层的存在会导致网络训练产生大量参数的问题,本文对传统VGG-16网络的加以改进,主要是减少了全连接层的数量,将随机平方数池化方法代替原本的最大值池化方法,又参考GoogLeNet网络方法,将最后一个池化层改为全局平均池化,并在LFW数据库及自建数据库上进行实验,发现有效的减少了网络训练参数,大大的降低了网络训练的时间,且得到了很好识别率。(3)在声纹识别上,对语音信号做量化及预加重处理,再将处理后的语音信息进行分帧与加窗处理,将自建的数字声纹库的声纹信息转化为语谱图,分别使用灰度数字语谱图在LeNet-5网络上进行声纹识别实验,以及三通道的彩色数字语谱图在VGG-16网络上进行声纹实验。最后搭建了一个自动语音识别系统,对实时语音信息进行声纹识别。