论文部分内容阅读
语音识别是实现人机交互,促进人工智能发展的关键技术。在过去的几十年里,国内外的许多专家学者在这一领域投入了大量精力,并取得了许多技术成果。如今,自动语音识别系统在产品应用中变得越来越成熟,在使用近场麦克风的无噪声环境下,对孤立词的语音识别准确率已经超过实际阈值。然而,对大规模词汇的的连续语音识别的研究,却遇到了瓶颈阶段。互联网和多媒体技术的飞速发展使人们能够通过多种渠道获得大量的原始语音数据和文本语料库。但如果只依赖传统的语音识别算法,人们是很难有效地利用这些数据来构建一个性能优秀的声学模型,识别结果也不会很好。随着近些年来,随着深度学习技术的兴起,基于DNN-HMM的声学模型混合建模方法也取代了传统的GMM-HMM声学模型,成为了当前语音识别系统的主流框架。与此同时,复杂噪声环境下的语音识别也是研究的热点。单纯依赖单模态的语音信息,很容易受到噪声环境的干扰,影响声学模型的识别结果。而视觉信息不会受到声学噪声的干扰,还能从视觉角度补充语音信息。基于以上背景,本文提出了一种视听信息融合的语音识别方法,将人脸唇部图像特征与语音特征进行多模态的特征融合,提高了声学模型的鲁棒性以及准确性。首先,设计大规模的连续中文语料库,并使用Kinect设备录制语音,图像数据。然后通过实验选取了不同维度的唇部图像特征和语音特征,进行了多模态特征融合。最后,在Kaldi平台上进行DNN-HMM的声学模型建模,训练以及解码。论文使用实验室录制的小规模中文语料库进行实验,比较多模态特征和纯净音频特征在不同噪声环境下,使用传统GMM-HMM和DNN-HMM声学模型的实验结果。实验结果表明,基于深度神经网络的多模态声学模型在词和句子的识别错误率上均有所降低。