论文部分内容阅读
近年来语音识别技术不断发展,应用的方面也越来越多,说话人识别技术作为一种重要的身份认证方法也受到了很多的关注。研究人员将深度学习用于说话人识别并取得了显著的研究成果。本文主要目的是提高与文本无关的闭集下的说话人辨认识别率,以深度神经网络为基础,对说话人识别展开研究。大量实验证明,对基于深度学习的说话人识别而言,说话人的特征参数和声学模型两个方面的优劣严重影响识别系统的好坏,因此本文主要工作在于对特征参数提取的预处理部分的窗口函数进行改进以及优化现有的声学模型用于训练和测试。实验表明,改进后的说话人识别系统的说话人辨识准确率得到了有效提升,证明了本文所用方法是有价值的,对以后的研究工作具有借鉴意义。本文首先介绍了说话人识别的总体框架,以及三种经常用于说话人识别的特征参数的具体提取过程并对比其优缺点。通过分析提取梅尔倒谱系数(MFCC)的过程,为使特征参数包含更多的说话人语音信息,对其中关键的一步语音加窗,即所用的汉明窗提出改进,并用数学分析证明,新设计的窗函数在原汉明窗的基础上对提取语音MFCC特征参数的主要意义在于增加了语音功率谱的斜率、相位等特征信息,实验表明,改进后的语音特征参数可以有效的提升后期训练的效率从而提高说话人识别的准确度。然后,分析了门控循环单元神经网络的不足之处,提出用深度双向门控循环单元(BiGRUs)神经网络作为说话人识别的声学模型。为了解决BiGRUs中梯度消失和过拟合的问题,本文结合Maxout网络和Dropout正则化算法来改进BiGRUs声学模型,提出BiGRUs-DM声学模型。实验结果表明本文改进的BiGRUs-DM说话人识别模型优于BiGRUs、Bi LSTMs等模型,可以有效地提高说话人识别性能。最后,本文将改进后的说话人识别系统,在THCHS-30中文语料库和自制语料库中进行实验验证和分析。实验结果表明,本文建立的说话人识别系统与传统的基于RNN的说话人识别系统相比,泛化能力更强,识别率更高。