论文部分内容阅读
随着人工智能领域研究的深入以及大数据语料的不断积累,语音识别技术得到突飞猛进的发展,神经网络开始大规模应用于语音识别技术,端到端语音识别成为近年来人工智能研究的热点课题。然而,由于特定说话人含有不同发音特性、不同语种发音特性不同等原因,导致端到端语音识别模型对中文的识别准确率偏低。基于以上背景,本文结合中文语言模型对现下主流端到端语音识别框架的结构进行研究和改进,以提高端到端语音识别框架对于汉语的识别准确率和效率。首先,本文设计基于传统隐马尔科夫-混合高斯声学模型结合词典和N-gram语言模型的建模方法作为本文的基线实验。在对隐马尔科夫-混合高斯模型的研究中,对语音信号易于受到上下文内容影响的问题,设计利用上下文相关的三音素声学模型,通过考虑每一音素相邻的前后音素,进而提升模型性能。同时,对语音易受到说话人发音特性影响的问题,设计融合说话人自适应技术的隐马尔科夫-混合高斯模型的建模方式,以提高本文基线实验的识别准确率。其次,本文针对端到端框架对中文识别准确率较低的问题,提出结合语言模型的非完全端到端框架的语音识别方法,将非完全端到端框架应用于神经网络时序分类方法对语音识别的研究中。针对LSTM-CTC端到端模型计算复杂度高,训练速度耗时过长的问题,本文提出了一种改进的映射长短期记忆时序网络,用以优化模型的训练速率。同时针对语音特征的长时依赖性并不只有正向传播的特点,在端到端模型中设计采用双向映射长短期记忆时序网络,替代固有的单向长短期记忆时序网络,通过对语音特征进行双向提取,从而提高模型的准确率。最后,选取希尔贝壳公司的AISHELL语音数据库对本文所提出的方法进行实验验证,针对实验过程中双向神经网络训练易产生过拟合的问题,将语音数据库通过速度扰动技术进行扩充、实验。最终实验结果显示,模型的准确率和速率较基线实验结果都得到显著提升。