论文部分内容阅读
语音识别是实现人机语音交互的前提条件,正受到研究者越来越多的关注。基于联结主义时序分类(Connectionist Temporal Classification,CTC)的端到端声学模型建模技术成为主流方法之一,但选择用于CTC预测的基本输出单元是一个设计难题。识别单元的选择一般是基于语音学知识的,但是也可以通过数据驱动的方式来产生,使用后者所确定的单元可能在语音学上也许没有什么明确的意义,但也可能达到很好的性能。此外,语音识别系统中往往还包括语言模型,在传统建模方式中常采用n-gram语言模型。随着深度学习的发展,找到优化的策略或网络结构对语言模型进行改进也颇具研究价值。在此背景下,本文分别对自动语音识别系统中的声学模型建模技术和语言模型建模技术进行探索,一方面结合CTC理论提出新的建模单元集合,探究新的语言模型神经网络结构,提升语音识别的整体性能。首先,本文利用字节对编码(Byte Pair Encoding,BPE)算法的思想对声学模型进行改进,通过为其选择更合适的识别单元来提升语音识别性能。CTC声学模型可以选择大于音素的输出单元,比如声韵母和音节等,而且不用对输入语音信号的每一帧进行标注。BPE算法通过迭代地合并文本中出现最频繁的单元并将其添加到子词单元集合中,自动地学习和发现识别单元的最佳集合,也能自动地学习分解目标序列的最合适的方式。另外,本文利用Transformer网络实现了从声学模型输出的音节序列到文字的解码过程。相比n-gram模型,Transformer网络更容易捕获句子中长距离的相互依赖的特征,这样能充分利用语境信息,在音字转换中发挥更大优势。经过实验对比,改进的语言模型系统性能得到提升。而且相比循环神经网络(Recurrent Neural Network,RNN),Transformer对于增加计算的并行性也有直接作用,适合语言模型建模任务。基于BPE的声学建模和基于Transformer的语言模型建模技术结合起来,在汉语识别准确率上性能有了明显的提升。