论文部分内容阅读
随着智能家居、车载语音系统以及各种语音识别软件流行,语音识别逐渐走进人们的视野,凭借其实用性准确性得到了广大用户的喜爱,同时语音识别作为人机交互的重要接口,成为人工智能领域研究的重点。在大数据的背景下,深度学习得到长足的发展,由于它对海量数据超强的建模能力,被广泛应用与图像、语音识别,并取得了惊人的效果。考虑到理论意义和实用价值,在深度学习的基础上研究语音识别是一个可行的方向。深度学习是一种多层非线性变换网络,通过大量的有监督参数调整计算来建模数据间的复杂关系。本文详细介绍了语音识别以及深度学习的基本原理,然后阐述了怎样将深度学习高效的应用与语音识别中。1、基于深度神经网络的声学特征提取研究深度神经网络是一种有监督训练的多层网络,主要用于分类问题,但是截取它的一部分训练好的网络用于特征转换,新生成的特征在语音识别上相比于MFCC特征也有很好的表现。本文主要从深度神经网络的预训练、参数调整、系统优化方面进行了研究,并在Kaldi平台上搭建了用于语音特征提取的深度神经网络,从MFCC特征中提取鲁棒性区分性更强的语音特征,并用这些新特征训练基于GMM-HMM的声学模型搭建语音识别系统,最好的DNN网络与原始MFCC训练的声学模型搭建的系统相比,在词错误率和句错误率上下降了1.98%和4.21%2、基于深度神经网络的声韵母属性提取研究声韵母属性属于语音属性的一种,它可以看做是语音识别中比声韵母更小的基元,用这种粒度更小的基元更能细致的描述语音现象,而且这种方法在以前语音基于概率统计的基础上加入了语音知识的东西,提高系统的识别性能。本文主要研究了语音属性的基础理论,并从语音属性的提取入手,结合了深度学习的原理,搭建了语音属性提取器,用提取出的语音属性搭建了基于GMM-HM M和基于DNN-HMM的声韵母识别器,通过与MFCC搭建的声韵母识别器比较,在声韵母识别率上分别有0.65%和1.37%的提升,通过与MFCC搭建的语音识别器比较,在词识别错误率上有5.61%的下降。3、基于深度学习的声学建模研究有监督的深度网络本质上是区分性模型,通过用建模能力强大的深度网络取代浅层GMM模型做状态输出,并与HMM模型结合训练声学模型。在Kaldi上分别实现了基于GMM-HMM、基于DNN-HMM和基于CNN-HMM,并在863语料上通过实验证明了基于DNN-HMM和基于CNN-HMM的声学模型搭建的系统比GMM-HMM的系统在词识别错误率上分别有7.98%和9.01%的下降。并对三种方法进行了比较分析。