论文部分内容阅读
随着智能可穿戴设备和智能家居市场的升温,语音识别作为其中最重要的人机交互手段,其市场也水涨船高。在非现场说话人认证系统中,良好的语音识别系统能让非现场说话人认证系统的人机交互更加自然。传统连续语音识别技术的主流代表是GMM-HMM,但是其识别率远不能满足商业应用需求。深度神经网络由多层非线性变换网络构成,较多的隐层数量和较多的隐层神经元数,使得深度神经网络能适应语音识别这样的复杂模式分类问题。2011年前后,微软、谷歌等公司开始将深度神经网络应用到语音识别的声学模型中,并取得飞跃性的进步,使其成为现代语音识别的主流技术。随着计算能力的提升,循环神经网络语言模型技术也得到了很好的发展,困惑度已经低于传统N-gram,在机器翻译、对话生成等领域的应用效果也超出了传统的N-gram方案的效果。所以本文将会使用循环神经网络语言模型取代N-gram语言模型,与DNN-HMM声学模型搭配来提升语音识别识别率。为了给本实验室的“远程说话人认证系统”对话控制模块的挑战响应检测提供语音识别支持,本文使用Kaldi深度学习工具箱,搭建一套基于循环神经网络语言模型和深度神经网络声学模型的中文大词汇量连续语音识别系统。本文的主要工作和贡献如下:1、通过理论分析和实验对比选择了声母加带调韵母方案作为中文语音识别系统的识别基元方案;通过理论分析和实验对比选择DNN-HMM作为声学模型;通过理论分析和实验对比选择循环神经网络作为语言模型,并最终证明该方案的优越性。2、将RNN语言模型和DNN声学模型进行结合,取得了比N-gram语言模型搭配GMM-HMM或者DNN-HMM声学模型的语音识别系统更高的识别率。3、搭建基于RNN语言模型和DNN声学模型的中文语音识别系统,并将其与远程说话人认证系统连接运行,取得良好的识别效果。