论文部分内容阅读
高斯混合-隐马尔科夫模型(GMM-HMM)和深度神经网络-隐马尔科夫模型(DNN-HMM)在语音识别任务上取得了极大成效,但是在模型训练和系统搭建上比较复杂。由于藏语多方言等低资源语言的语言学研究并不充分,导致上述经典模型的应用受到限制。近年来随着神经网络技术的发展,迁移学习和多任务学习方法广泛应用于模式识别的多个领域,基于端到端的语音识别技术也在包括汉语和英语等主流的语言上取得重要进展,但是在藏语多方言多任务上尚未有深入的研究,因此,本文主要探讨了基于端到端技术的多任务学习和迁移学习在藏语多方言多任务语音识别上的应用。1.基于WaveNet-CTC模型的藏语多方言多任务识别链接时序分类技术丢弃了 GMM-HMM中复杂的预处理和后处理操作,将语音识别任务直接建模成序列概率最大化问题,并通过前后向算法降低模型计算复杂度。WaveNet模型则能够有效增加感受野而不损失信息,因而能够充分利用背景信息。本文基于WaveNet-CTC模型对比了单任务和多任务(两任务和三任务)模型的性能,实验结果表明两任务模型相比单任务在语音识别和方言或者说话人识别上均有明显提升,三任务模型则在语音识别任务上相对退化。2.融合注意力机制的WaveNet-CTC模型在藏语多方言多任务识别上的应用注意力机制能够赋予与输入更相关向量以更大权重,来充分利用上下文相关信息,其在语音识别领域已经成为研究热点。本文在WaveNet-CTC模型上引入注意力机制,同时为了减少模型的计算量增加了注意力窗口机制,并对比了注意力机制作用的不同位置带来的性能差异。实验结果表明基于高层注意力机制的模型进一步提升了藏语语音识别、方言和说话人识别任务上的性能。3.基于迁移学习的藏语语音识别考虑到卫藏方言和安多方言之间的特点和共性,本文通过模型的迁移学习开展了基于卫藏方言拉萨话语音识别模型迁移学习安多牧区话语音识别的研究。实验结果表明迁移学习可以有效地利用任务之间的潜在相似性提升目标任务的识别性能。4.藏语多方言多任务识别系统基于Tensorflow等深度学习框架搭建了实时藏语多方言多任务识别系统,该系统能够通过麦克风输入藏语语音,并自动调用训练好的基于注意力机制的WaveNet-CTC模型输出识别结果-语音内容和方言标识。