论文部分内容阅读
随着神经网络及语音识别的迅速发展,对语音识别中的说话人自适应技术的深入研究越来越受到重视。对基于DNN声学模型的说话人自适应方法展开研究,通过依据说话人的自适应数据,对声学模型进行自适应训练,从而提高声学模型对说话人的自适应能力,使得识别系统获得比没有自适应下更高的识别准确率。同时对自适应过程中的信道干扰进行研究,以提高系统的鲁棒性。总而言之,说话人自适应具有重要的研究价值。本文在对基于DNN声学模型的说话人自适应方法研究中,主要研究了对表征说话人身份(identity-vector,i-vector)特征训练及提取,为了减少信道差异带来的影响,对i-vector特征的信道补偿方法进行研究,而后,对DNN声学模型进行自适应训练方法进行研究。具体内容如下:首先,针对因自适应数据稀疏训练中出现过拟合问题,本文提出了一种基于奇异值分解(Singular Value Decomposition,SVD)的低维特征提取技术,给出了对DNN网络中的权重矩阵进行SVD分解公式以及相应的解析,利用该网络提取低维特征。另外,针对i-vector模型中总变换矩阵T训练与估计困难问题,给出改进后总变换矩阵T的训练方法。随后,训练并提取表征说话人身份信息的i-vector特征。然后,针对语音识别系统中训练数据和测试数据不匹配问题,本文提出了一种基于i-vector的说话人识别方法。为了进一步提高系统识别性能,减少信道噪声的干扰,对于样本所提取的i-vector特征,给出一种改进的信道补偿方法,得到了深度鉴别性训练网络(Deep Discriminant Training Network,DDTN)模型。同时针对自适应效果不明显,识别性能差的问题,给出了基于DNN声学模型的自适应训练方法。最后,本文在Kaldi语音识别平台,利用GPU加速模型训练,使用TIMIT和Switchboard语料库,对本文所提出的自适应方法进行了实验分析。实验结果表明,本文的方法与传统的i-vector特征提取方法及自适应训练方法相比,其系统识别错误率显降低。证明了本文提出的说话人自适应方法的合理性和有效性。