论文部分内容阅读
20世纪90年代,方言辨识开始逐渐被越来越多的人们重视,各国的研究人员对不同种类方言的特征和分类模型进行了大量研究,同时方言辨识在刑事案件中犯罪嫌疑人的归属地判定方面有重大贡献。中国是一个多民族的人口大国,各民族各地区的语言都有些许不同,因此,为了能够更好的推广语音识别技术的应用,着眼于方言辨识的研究是非常有意义的。早年较为常用的声学模型主要有隐马尔科夫模型(HMM)和人工神经网络(ANN),像BP神经网络和RBF神经网络等,并且至今都在沿用以及不断优化中。而近年来,随着深度学习在语音识别领域中大量成功实践,对多层神经网络采用深度学习算法,可以得到更好的初始化权值,使得网络在最佳的极值点处能够更快完成收敛,从而改善了传统神经网络的不足。本文通过对湖南长沙、株洲、衡阳、湘潭四地方言进行研究,以MATLAB为实验平台,提出了一种基于门控循环单元(GRU)神经网络和HMM结合的声学模型,取得了较好的识别效果,主要研究内容包括:本文对语音特征参数提取进行了研究,针对传统的MFCC特征参数的不足,研究了基于人耳听觉模型的特征参数CFCC的提取。详细介绍了CFCC特征参数的原理和提取方法,分析了耳蜗滤波器带宽、中心频率等参数对提取结果的影响,并比较了不同特征参数用于湖南方言识别的效果。仿真实验中,分别加入了高斯白噪声、汽车噪声和说话嘈杂噪声,并在不同的信噪比条件下进行了实验。实验结果表明:不同信噪比条件下,CFCC特征参数的识别性能较好;在汽车噪声和说话嘈杂噪声的条件下,其优势更为明显。建立了基于GRU神经网络和HMM结合的声学模型。首先将提取的特征参数通过GRU神经网络进行训练,同时会得到GRU神经网络的初识别率,接着通过HMM的前向-后向算法继续训练,并不断优化更新模型,最后通过维比特解码得出最终识别率。将该模型分别与传统GMM-HMM声学模型和基于BP神经网络的声学模型进行了方言辨识对比实验,实验过程加入了不同信噪比的高斯白噪声并提取了不同的特征参数。对比实验结果发现:GRU神经网络不仅比传统的声学模型辨识效果好,也优于BP神经网络,可提高方言辨识系统的鲁棒性和识别率。