基于深度神经网络的多模态语音识别

来源 :天津大学 | 被引量 : 0次 | 上传用户:magiciany
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是实现人机交互,促进人工智能发展的关键技术。在过去的几十年里,国内外的许多专家学者在这一领域投入了大量精力,并取得了许多技术成果。如今,自动语音识别系统在产品应用中变得越来越成熟,在使用近场麦克风的无噪声环境下,对孤立词的语音识别准确率已经超过实际阈值。然而,对大规模词汇的的连续语音识别的研究,却遇到了瓶颈阶段。互联网和多媒体技术的飞速发展使人们能够通过多种渠道获得大量的原始语音数据和文本语料库。但如果只依赖传统的语音识别算法,人们是很难有效地利用这些数据来构建一个性能优秀的声学模型,识别结果也不会很好。随着近些年来,随着深度学习技术的兴起,基于DNN-HMM的声学模型混合建模方法也取代了传统的GMM-HMM声学模型,成为了当前语音识别系统的主流框架。与此同时,复杂噪声环境下的语音识别也是研究的热点。单纯依赖单模态的语音信息,很容易受到噪声环境的干扰,影响声学模型的识别结果。而视觉信息不会受到声学噪声的干扰,还能从视觉角度补充语音信息。基于以上背景,本文提出了一种视听信息融合的语音识别方法,将人脸唇部图像特征与语音特征进行多模态的特征融合,提高了声学模型的鲁棒性以及准确性。首先,设计大规模的连续中文语料库,并使用Kinect设备录制语音,图像数据。然后通过实验选取了不同维度的唇部图像特征和语音特征,进行了多模态特征融合。最后,在Kaldi平台上进行DNN-HMM的声学模型建模,训练以及解码。论文使用实验室录制的小规模中文语料库进行实验,比较多模态特征和纯净音频特征在不同噪声环境下,使用传统GMM-HMM和DNN-HMM声学模型的实验结果。实验结果表明,基于深度神经网络的多模态声学模型在词和句子的识别错误率上均有所降低。
其他文献
目的:探讨喉鳞癌患者凝血功能状态与肿瘤术后复发的关系。方法:选取65例喉良性疾病患者(对照组)和155例喉鳞癌患者(试验组)为研究对象,分析血浆凝血酶原时间(PT)、活化部分凝血活酶时
在接入主用户授权频段之前,认知用户需要检测该频段是否处于空闲状态,以免干扰主用户通信。利用主用户信号和噪声的不同谱相关特性,研究了基于循环谱的频谱检测方法。将主用户非
在对“四合作”人才培养模式形成的产业背景、岗位现状、人才需求和合作企业的参与意识进行深入分析的基础上,以机电类专业为例,探讨了学校、企业、学生三方利益的诉求点,提出了
目的:探讨MR/扩散加权成像在判断子宫内膜癌肌层浸润中的应用价值。方法:回顾性分析40例经手术病理证实的子宫内膜癌MR扩散加权成像表现,判断其肌层浸润程度,并与术后病理结果进行
提出了一种基于偏度和峰度的语音回声隐藏分析方法。通过分析回声隐藏导致的语音复倒谱变化,计算出语音复倒谱的统计特征——偏度和峰度。通过对原始语音样本和藏密语音样本复
目的:探讨肿瘤患者外周血淋巴细胞对临床常用化疗药物的敏感性,筛选个体敏感的化疗药物,指导临床用药。方法:采用MTT法检测154例肿瘤患者外周血淋巴细胞对常用15种化疗药物的敏感
目的:研究单个核细胞与肺癌H460细胞在混合培养条件下,相互作用对基质金属蛋白酶-1(MMP-1)、基质金属蛋白酶-3(MMP-3)表达的影响。方法:H460细胞、志愿者血分离出的单个核细胞分别
不同时间结构的平稳随机信号具有不同的模型结构,平稳随机信号可以由白噪声激励一自回归(AR)模型得到,在某种意义上AR模型与线性预测模型等价。因此,在盲源分离中线性预测模型
目的:探讨行胆囊切除术时损伤胆管的原因与预防.方法:对我院附属医院自1992年6月~2002年6月行胆囊切除术3 750例,其中致胆管损伤24例(0.64%)进行回顾性分析.结果:本组24例,胆