论文部分内容阅读
随着计算机性能的不断提升,使用深度学习进行语音识别变为了可能,语音识别的主要技术逐渐从高斯混合模型-隐马尔可夫模型(GMM-HMM)转向了深度神经网络-隐马尔可夫模型(DNN-HMM),在DNN-HMM模型下,使用DNN来替代GMM输出状态的概率。相比GMM,DNN有更深层次的结构,能逐渐通过低层次的特征提取出高层次的特征,而且众多研究人员通过实验证明,使用DNN-HMM的建模方式在语音识别上的识别错误率相比GMM-HMM模型下降了三分之一左右。在这样的背景下,本文围绕深度学习以及语音识别,进行了以下的研究:(1)使用HMM,结合深度学习的理论分别设计了基于CD-DNN-HMM和基于双向长短时记忆-隐马尔可夫模型(BLSTM-HMM)的语音识别模型,并针对这两个模型在TIMIT语音数据集下进行实验,验证并分析了BLSTM在时序建模上的优势。(2)通过分析HMM混合模型在语音识别任务中存在的不足,给出了使用双向长短时记忆-连接时序分类(BLSTM-CTC)模型进行语音识别任务,通过实验,证明了使用BLSTM-CTC进行序列识别任务的建模比HMM混合模型方便,而且识别率也更高。(3)使用LSTM作为隐层单元会带来较大的计算量,从而导致系统运行速度的下降,针对此问题,提出了使用门限循环单元(GRU)替代LSTM,并结合CTC进行语音识别的建模,在分别使用BLSTM和双向门限循环单元BGRU作为隐层单元的情况下,两者识别率相当,而且使用BGRU训练时间比BLSTM少了23%;另外对BGRU-CTC模型进行了改进,通过使用256隐层节点的2-BGRU-CTC模型,使其在音素识别上错误率降低到了33%。(4)针对在线英语口语学习的需求,通过使用2-BGRU-CTC语音识别模型,设计了口语评分系统,该系统通过动态规划的思想,对识别结果进行评分,并能够返回用户错误的发音单词。