基于DNN声学模型的说话人自适应方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:dypplay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着神经网络及语音识别的迅速发展,对语音识别中的说话人自适应技术的深入研究越来越受到重视。对基于DNN声学模型的说话人自适应方法展开研究,通过依据说话人的自适应数据,对声学模型进行自适应训练,从而提高声学模型对说话人的自适应能力,使得识别系统获得比没有自适应下更高的识别准确率。同时对自适应过程中的信道干扰进行研究,以提高系统的鲁棒性。总而言之,说话人自适应具有重要的研究价值。本文在对基于DNN声学模型的说话人自适应方法研究中,主要研究了对表征说话人身份(identity-vector,i-vector)特征训练及提取,为了减少信道差异带来的影响,对i-vector特征的信道补偿方法进行研究,而后,对DNN声学模型进行自适应训练方法进行研究。具体内容如下:首先,针对因自适应数据稀疏训练中出现过拟合问题,本文提出了一种基于奇异值分解(Singular Value Decomposition,SVD)的低维特征提取技术,给出了对DNN网络中的权重矩阵进行SVD分解公式以及相应的解析,利用该网络提取低维特征。另外,针对i-vector模型中总变换矩阵T训练与估计困难问题,给出改进后总变换矩阵T的训练方法。随后,训练并提取表征说话人身份信息的i-vector特征。然后,针对语音识别系统中训练数据和测试数据不匹配问题,本文提出了一种基于i-vector的说话人识别方法。为了进一步提高系统识别性能,减少信道噪声的干扰,对于样本所提取的i-vector特征,给出一种改进的信道补偿方法,得到了深度鉴别性训练网络(Deep Discriminant Training Network,DDTN)模型。同时针对自适应效果不明显,识别性能差的问题,给出了基于DNN声学模型的自适应训练方法。最后,本文在Kaldi语音识别平台,利用GPU加速模型训练,使用TIMIT和Switchboard语料库,对本文所提出的自适应方法进行了实验分析。实验结果表明,本文的方法与传统的i-vector特征提取方法及自适应训练方法相比,其系统识别错误率显降低。证明了本文提出的说话人自适应方法的合理性和有效性。
其他文献
为进一步发挥银行卡查询查复系统的网络优势,实现中国银联手工新业务功能的电子化处理,满足跨行查询收费差错退费的处理需求,近期农总行在原查询查复管理系统的基础上升级开发了
报纸
2012年暑期至今让笔者印象深刻,为期六天的音乐远程研修犹如滴滴甘露,滋润着我们久旱的心田,我们不仅有机会聆听了专家们的精辟见解,更有机会走进了音乐新课标,对于新课程的
多接收杯电感耦合等离子体质谱仪(MC-ICPMS)与氢化物发生系统(HG)在线联机自动测样的实现,极大提高了硒(se)同位素的分析精度和效率,推进了Se同位素地球化学的发展。本文综述了Se稳定
化学是一门在原子、分子水平上研究物质组成、结构与性能的辩证关系及能量、物质转化规律的科学。化学科学的研究对象是物质的化学运动。人们对物质的化学运动规律性的认识
<正>在金融全球化、税源国际化的背景下,全球金融账户税收情报自动交换是防止国际逃避税最有效的相互行政协助机制,是维护国家税收权益的重要手段。《美国海外金融账户税收合
目的:1.以M型超声心动图(M-UCG)和二代双源CT(2-DSCT)回顾性心电门控技术测量左心室收缩功能作为对照,探讨2-DSCT前瞻性心电门控技术评价左心室收缩功能的准确性及可行性。2.
目的:探讨肝穿刺活组织检查术患者的护理方法。方法:回顾性分析40例肝穿刺活组织检查术患者的护理方法,做好患者术前、术中、术后护理。结果:40例患者穿刺成功率100%。结论:
阅读策略是读者用来理解各种文章的有意识、可灵活调整的认识方法。教师应引导学生掌握和运用恰当的策略来完成阅读学习任务,从而形成阅读策略运用的能力。视觉化可让文字鲜
【正】 姜黄系姜科姜黄属植物的根茎,是我国的传统中药。近十年来,国内外医学界对姜黄进行了广泛、深入、系统的研究。发现姜黄有效成分——姜黄素、姜黄油的药理作用十分广
穿刺巴斯德菌Pasteuria penetrans专性寄生于根结线虫Meloidogyne spp.,具有很好的生防潜力。为了进一步提高其产量,本研究比较了5个对南方根结线虫敏感的番茄栽培品种繁殖穿