RNN-BLSTM声学模型的说话人自适应方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:shepuqi4709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人自适应技术利用特定说话人提供的语料,让语音识别系统在识别性能上针对该说话人有明显的提升。它可以将说话人无关的识别系统转换成说话人相关的识别系统,从而和说话人相关的声学特征相匹配;也可以将说话人相关的声学特征转换成说话人无关的声学特征,从而和说话人无关的识别系统相匹配。因此,说话人自适应技术是为了让说话人和识别系统尽量匹配。基于双向长短时记忆单元的递归神经网络(recurrent neural network with bidi-rectional Long Short-Term Memory,RNN-BLSTM)声学模型不仅针对语音 的时序进行建模,而且利用一些控制器来控制信息流,从而解决了传统的基于递归神经网络声学模型的梯度爆炸和梯度消失问题。同时,在一些语音标准数据集上基于RNN-BLSTM声学模型的语音识别系统相比于深度神经网络(Deep Neural Networks,DNN)获得了超过10%的性能提升。虽然RNN-BLSTM声学模型在识别性能上相比于DNN有了大幅度的提升,但是依旧不能够解决上述的不匹配问题。因此,在RNN-BLSTM声学模型上进行说话人自适应技术的研究尤为重要。本文主要围绕RNN-BLSTM声学模型上的说话人自适应展开研究。首先,本文将基于说话人编码(speaker code)的说话人自适应方法应用于RNN-BLSTM声学模型,并分析RNN-BLSTM的记忆单元(memory cell)中的不同控制器对说话人自适应的识别性能的影响。与此同时,我们还提出一些启发式的算法来对基于speaker code的方法进行优化和改进,从而进一步地提升识别性能。然后,本文提出了基于深层编码(deep code,d-code)的离线说话人自适应方法,该方法提供了一种解决基于speaker code的说话人自适应方法的二遍解码问题的途径。通过实验对比,该方法在识别性能上与基于speaker code的方法相接近,并且比同样不需要二遍解码的基于鉴别性矢量(identity vector,i-vector)的说话人自适应方法在识别性能上更优,训练过程更加灵活。最后,本文研究基于d-code的在线说话人自适应方法,该方法不需要收集说话人整个句子。它在在线的语音识别过程中逐步进行说话人自适应,并取得了较好的识别效果。
其他文献
名士始终秉承其格言:"唯美主义,只制造品质上乘的腕表。"不断研发性能卓越的腕表为名士赢得了四海皆知的国际声誉,正因品牌所推出的腕表不仅拥有创新技术,也拥有与时俱进的美
当前,网络文化成为大学校园教学活动中不可或缺的文化表达和接受形式,它的兴起给校园的教学活动带来了一次新的变革。网络文化是一把双刃剑,既给大学英语教学带来巨大的冲击与挑
<正>随着时代的进步,越来越多的家长认识到阅读对孩子一生的重要影响。一个人的阅读能力并不是与生俱来的,需要后天的练习和自我训练,幼年时期是培养良好阅读兴趣的关键期。
广西农垦国有农场自改革开放以来,经过30多年的改革探索,对农业产业经营有一套比较成熟的经验,为建设新农村提供了示范。尤其是农垦国有农业企业具有组织优势、技术优势、产
为保护著作权人的合法权益,各国相继采用了刑法保护手段,我国也设立了侵犯著作权罪,对侵犯他人著作权情节严重的行为予以严惩。文章探讨了司法实践中如何考量情节是否严重、
中共十六大以来,胡锦涛围绕解放思想的重要性、内容、途径和主体等,形成了一系列重要理论,对马克思主义解放思想的理论作出了四大新贡献。认真疏理这些理论和贡献,并探索其对
生物质衍生碳材料由于其可再生性、低成本、良好的导电性和稳定性等优异性能而被广泛应用于储能领域。综述了生物质衍生碳材料的常用制备方法(热解法、活化法、水热法等),以
截至12月初,河南省畜牧业产值在历史上首次突破1000亿元大关,预计到年底将达到1150亿元,同比增长32.6%。畜牧业产值占农业总产值的比重达到39%。
这次全省渔业工作会议的主要任务,是贯彻落实全国渔业工作会议和刚结束的全省农业工作会议精神,以科学的发展观为指导,总结去年的工作,部署2005年工作任务.在这次会议上,李海
律师会见权是刑事诉讼法赋予律师的一项重要权利,而新《律师法》再次强调了这一权利。文章从分析会见权的内容开始,探讨现阶段律师会见难的原因并提出自己的建议。