论文部分内容阅读
随着深度学习的兴起,作为语音识别系统的核心部分,声学模型经历了从基于高斯混合模型声学建模到基于神经网络的声学建模的发展历程,其识别性能也取得了质的飞跃。藏语是我国一门重要的少数民族语言。与汉语、英语等主流语言相比,藏语作为一个小语种,藏语语音识别仍然面临许多挑战。在此背景下,本文从藏语声学模型的结构出发,展开了系统而全面的研究。一方面结合藏语和汉语的共同发音特点,优化建模单元,既提升了识别率,又解决了藏汉双语语音识别问题。另一方面,本文也提出了一些方法来增强声学模型的鲁棒性以及加快声学模型的训练速度。首先,本文研究了基于端到端技术的藏汉双语混合声学建模方法。在藏语语音识别任务上,分别探索不同建模单元对藏语声学模型的影响。在已有发音字典的情况下,本文将链接时序分类技术(Connectionist Temporal Classi-fication,CTC)与高斯混合模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden MarkovModel,GMM-HMM)、发音字典等先验知识结合起来,进一步优化端到端的声学模型,识别率获得进一步提升。在藏汉双语混合语音识别任务上,藏汉联合发音字典的缺乏使得传统的基于隐马尔科夫模型的声学建模方法不再适用。本文提出采用端到端的混合建模方法,以字取代音素作为建模单元,训练声学模型,共享隐层。然而,在资源稀少情况下,建模单元的稀疏性是声学建模过程中不可避免的问题。本文提出两种方法解决建模单元的稀疏性问题。其一,汉语音节取代汉字成为建模单元。其二,采用加噪算法来增加藏汉双语语音。实验证明,在藏汉混合识别任务上,基于上述方法的实验结果获得了明显提升。其次,针对低资源情况下端到端声学模型的鲁棒性问题,本文提出采用多任务学习的策略来增强声学模型的鲁棒性。分别采用音素、藏字作为多任务学习的候选。此外,本文还将基于CTC准则的多任务学习与交叉熵(Cross Entropy,CE)准则结合起来,采用绑定的三因子作为建模单元,以此作为附属任务进一步优化端到端的声学模型。实验结果证明,在藏语语音识别任务上,上述方法相比基于迁移学习的声学模型,藏字识别率获得明显提升。最后,本文提出采用前馈序列记忆网络(Feedforward Sequential Memory Net-works,FSMN)作为端到端的声学模型进一步加速声学模型训练。前馈序列记忆网络通过记忆块对时序信号的长时相关性建模,从而避免了循环神经网络双向记忆时间步耗时等待的问题。其具有抽头延迟结构的记忆模块使得基于前馈序列记忆网络的端到端的声学模型训练过程更加快速稳定。实验表明,在藏语语音识别任务上,上述方法在识别率下降0.19%的前提下,声学模型的训练速度提高了至少5倍以上。