论文部分内容阅读
近年,随着深度神经网络(Deep Neural Network,DNN)在语音识别中的成功应用,研究人员陆续展开了对其他网络结构的探索。卷积神经网络(Convolutional Neural Network,CNN)凭借其特殊的网络结构和强大的特征学习能力,吸引了许多学者对其进行深入研究。目前,在声学模型构建和声学特征提取中,CNN的潜力还有待进一步挖掘。本文从语音识别基本原理出发,以声学模型和声学特征为切入点,主要研究了深度卷积神经网络在语音识别任务中的应用:(1)研究了基于深度卷积神经网络的声学建模,本文从模型结构、训练算法等方面深入对比分析了 Deep CNN、DNN以及GMM在声学建模中的应用,阐述了 CNN用于描述HMM状态输出概率分布的可行性,着重研究了不同网络深度下CNN的性能表现。应用CNTK和Kaldi开源语音识别平台分别实现了基于GMM-HMM、DNN-HMM以及不同深度的CNN-HMM声学模型的识别系统,在850人实验数据集上通过实验表明:2卷积层的CNN-HMM声学模型较DNN-HMM、GMM-HMM声学模型在音素误识率上有着8.29%和36.89%的相对降低,6卷积层的CNN-HMM声学模型较2卷积层的CNN-HMM声学模型在音素误识率上有着8.13%的相对降低。(2)研究了基于深度卷积神经网络的时-频谱特征提取,本文分析了现有声学特征Fbank的两点缺陷:设计过于依赖经验性知识,存在部分语音信息损失。从语谱的物理意义出发,提出了基于Deep CNN的多帧并联的时-频谱特征提取方法。使用CNTK设计了相应的网络结构,通过Kaldi开源语音识别平台在850人实验数据集上进行实验,实验表明基于时-频谱特征的系统较Fbank的系统在音素误识率上有2.16%的相对降低。