基于深度神经网络的多模态语音识别

来源 :天津大学 | 被引量 : 0次 | 上传用户：magiciany

【摘要】

：

语音识别是实现人机交互,促进人工智能发展的关键技术。在过去的几十年里,国内外的许多专家学者在这一领域投入了大量精力,并取得了许多技术成果。如今,自动语音识别系统在产

【作者】

：

胡晓凯

【出处】

：

天津大学

【发表日期】

：

2004年期

【关键词】

：

音视频语音识别声学建模深度学习多模态信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音识别是实现人机交互,促进人工智能发展的关键技术。在过去的几十年里,国内外的许多专家学者在这一领域投入了大量精力,并取得了许多技术成果。如今,自动语音识别系统在产品应用中变得越来越成熟,在使用近场麦克风的无噪声环境下,对孤立词的语音识别准确率已经超过实际阈值。然而,对大规模词汇的的连续语音识别的研究,却遇到了瓶颈阶段。互联网和多媒体技术的飞速发展使人们能够通过多种渠道获得大量的原始语音数据和文本语料库。但如果只依赖传统的语音识别算法,人们是很难有效地利用这些数据来构建一个性能优秀的声学模型,识别结果也不会很好。随着近些年来,随着深度学习技术的兴起,基于DNN-HMM的声学模型混合建模方法也取代了传统的GMM-HMM声学模型,成为了当前语音识别系统的主流框架。与此同时,复杂噪声环境下的语音识别也是研究的热点。单纯依赖单模态的语音信息,很容易受到噪声环境的干扰,影响声学模型的识别结果。而视觉信息不会受到声学噪声的干扰,还能从视觉角度补充语音信息。基于以上背景,本文提出了一种视听信息融合的语音识别方法,将人脸唇部图像特征与语音特征进行多模态的特征融合,提高了声学模型的鲁棒性以及准确性。首先,设计大规模的连续中文语料库,并使用Kinect设备录制语音,图像数据。然后通过实验选取了不同维度的唇部图像特征和语音特征,进行了多模态特征融合。最后,在Kaldi平台上进行DNN-HMM的声学模型建模,训练以及解码。论文使用实验室录制的小规模中文语料库进行实验,比较多模态特征和纯净音频特征在不同噪声环境下,使用传统GMM-HMM和DNN-HMM声学模型的实验结果。实验结果表明,基于深度神经网络的多模态声学模型在词和句子的识别错误率上均有所降低。

其他文献

喉鳞癌患者凝血功能与肿瘤复发的关系

目的：探讨喉鳞癌患者凝血功能状态与肿瘤术后复发的关系。方法：选取65例喉良性疾病患者（对照组）和155例喉鳞癌患者（试验组）为研究对象,分析血浆凝血酶原时间（PT）、活化部分凝血活酶时

期刊

喉癌鳞状细胞癌凝血功能复发laryngeal cancer squamous cell carcinoma blood coagulation recu

基于循环谱的多循环频率加权合作频谱检测

在接入主用户授权频段之前，认知用户需要检测该频段是否处于空闲状态，以免干扰主用户通信。利用主用户信号和噪声的不同谱相关特性，研究了基于循环谱的频谱检测方法。将主用户非

期刊

认知无线电循环谱多循环平稳特征加权迭代合作检测cognitive radio cyclic spectrum multiple cyclostatio

机电类专业“四合作”人才培养模式创新与实践

在对“四合作”人才培养模式形成的产业背景、岗位现状、人才需求和合作企业的参与意识进行深入分析的基础上，以机电类专业为例，探讨了学校、企业、学生三方利益的诉求点，提出了

期刊

合作办学合作育人合作就业合作发展机电类专业

磁共振扩散加权成像在判断子宫内膜癌肌层浸润中的应用

目的：探讨MR／扩散加权成像在判断子宫内膜癌肌层浸润中的应用价值。方法：回顾性分析40例经手术病理证实的子宫内膜癌MR扩散加权成像表现，判断其肌层浸润程度，并与术后病理结果进行

期刊

磁共振扩散加权成像子宫内膜癌肌层浸润diffusiong - weighted MRI endometrial carcinoma myometrial

腹式输卵管结扎病人的心理和护理

期刊

输卵管结扎病人心理护理

基于统计特征的语音回声隐藏分析

提出了一种基于偏度和峰度的语音回声隐藏分析方法。通过分析回声隐藏导致的语音复倒谱变化，计算出语音复倒谱的统计特征——偏度和峰度。通过对原始语音样本和藏密语音样本复

期刊

回声隐藏隐藏分析复倒谱偏度峰度echo hiding steganalysis complex cepstrum skewness kurtos

肿瘤患者外周血淋巴细胞化疗药物敏感性检测的应用研究

目的：探讨肿瘤患者外周血淋巴细胞对临床常用化疗药物的敏感性，筛选个体敏感的化疗药物，指导临床用药。方法：采用MTT法检测154例肿瘤患者外周血淋巴细胞对常用15种化疗药物的敏感

期刊

MTT法肿瘤外周血淋巴细胞药物敏感性MTT colormetric assay tumor peripheral blood lymphocytes d

单个核细胞与H460细胞相互作用对MMP-1,MMP-3表达的影响

目的：研究单个核细胞与肺癌H460细胞在混合培养条件下,相互作用对基质金属蛋白酶-1（MMP-1）、基质金属蛋白酶-3（MMP-3）表达的影响。方法：H460细胞、志愿者血分离出的单个核细胞分别

期刊

H460细胞单个核细胞MMP-1、3侵袭转移H460 mononuclear cells matrix metalloproteinase-1 3 i

基于AR模型的盲源分离方法

不同时间结构的平稳随机信号具有不同的模型结构,平稳随机信号可以由白噪声激励一自回归（AR）模型得到,在某种意义上AR模型与线性预测模型等价。因此,在盲源分离中线性预测模型

期刊

盲源分离信号模型线性预测瑞利熵blind source separation signal model linear prediction Raleig

胆囊切除时损伤胆管的原因与预防

目的:探讨行胆囊切除术时损伤胆管的原因与预防.方法:对我院附属医院自1992年6月～2002年6月行胆囊切除术3 750例,其中致胆管损伤24例(0.64%)进行回顾性分析.结果:本组24例,胆

期刊

胆囊切除术胆管损伤

基于深度神经网络的多模态语音识别

与本文相关的学术论文