基于DBN-UBM-DBF系统TV建模下的语种识别方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zhangqi789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语种识别(Language Recognition,LR)作为语音信号处理领域中的一个重要研究分支,具体是指利用计算机对任意给定时长的语音片段进行一定的分析和处理,从而自动判别出未知语音片段所属语言类别的过程。近二十年来语种识别才真正意义上成为研究的热点,理论算法研究的逐渐成熟也逐步平稳地推进着语种识别技术向实际应用方面的转变。基于全差异空间(Total Variability,TV)建模获取语音段i-vector表示的方法因其理论发展的成熟和性能的突出已被研究者们普遍应用在自己的语种识别系统中。本论文旨在获得能够有效描述语种信息的i-vector后,尝试解决后续语种识别方法存在的实际问题,从而找到适用于不同语种、不同测试样本的性能更加优异的语种识别方法,主要工作及成果如下:1.研究了基于DBN-UBM-DBF系统TV建模。首先在介绍了经典TV建模的基础上,对 DBN-UBM-DBF(Deep Bottleneck Network-Universal Background Model-Deep Bottleneck Features)系统中利用同一深度瓶颈网络(Deep Bottleneck Network,DBN)的不同层的输出信息提取语音段i-vector的完整过程进行了详细论述,然后对提取到的i-vector的特征域噪声补偿方法进行了阐述和分析,最后在实验中给出基线系统的默认配置并对基线系统的性能进行测试实验,为后续的研究提供统一的性能比较基准。2.系统地分析比较了目前在i-vector空间下的多种主流后端语种识别方法。首先对现有算法做了归纳和分类,详细介绍了每种方法在语种识别任务中的应用,然后在开发集上实验分析确定所需要配置的参数和相关实现细节,并利用不同性能指标下进行在测试集上的性能测试,最后分析比较各种方法在不同测试时长条件下的性能表现差异,并进一步总结方法之间的优劣性,为后续的改进工作提供了清晰的思路。3.提出了基于语种类内方差先验的加权余弦距离得分计算(Cosine Distance Score,CDS)改进算法。首先针对基线方法CDS性能提升存在瓶颈的实际问题,提出引入语种数据i-vector语种类内方差这种先验知识,然后为了减少由于i-vector不同特征维度对识别性能重要性存在显著差异带来的识别错误,进一步对语种类内方差进行加权处理,最后通过实验对改进算法进行性能测试并与基线方法作对比。4.提出了基于局部距离离群因子(LDOF,local distance-based outlier factor)准则的自适应高斯后端语种识别方法。首先针对由语种类内多样性引起的测试样本和已训练好的模型不匹配的问题,提出一种与测试样本相关的AGB语种识别方法,然后为了测试样本能够从多类语种训练样本子集上可靠地挑选出与之特性相近的训练样本,进一步定义了 LDOF准则,最后实验验证提出的解决算法的有效性。
其他文献
正交频分复用(Orthogonal Frequency Division Multiplexing, OFDM)技术拥有良好的抗多径性能和较高的频谱利用效率,适用于高速无线通信系统。2010年11月国际电信联盟无线通
手语通过手形和位置的组合变化来传递信息与表达语义,是听障人群的主要沟通工具。手语合成就是把自然语言翻译成手语的技术,为听障人与正常人之间的沟通搭起了桥梁。基于视频
众所周知,通过在跨数据中心的网络中运用网络功能虚拟化技术(NFV),服务提供商能够以更灵活有效的方式充分利用网络资源,并能缩短新服务的部署周期。本论文将研究如何在跨数据
近年来,利用信号的统计特性提升波达方向(DOA)估计算法的性能已经成为阵列信号处理的一个重要研究领域。其中,非圆信号因在阵列孔径拓展和估计精度提升等方面的优异性能,更是
无线体域网是以人体为中心,由若干低功耗、微型、智能的节点和一个协调器组成的人体范围内的无线通信系统,它在多个领域都有重要应用,比如,医疗监控、运动检测等。无线体域网
随着计算机应用的普及与计算机网络的发展,即使在图像、视频和音频数据快速增长的同时,文本数据仍然是互联网上使用最多和最广的一种信息载体,这样就给电子文本的版权保护带来了
随着航天任务的复杂化和空间设施的完备化,空间数据通信系统对数据处理的需求越来越高,因此CCSDS在常规在轨系统(COS)的基础上开发了高级在轨系统(AOS),以满足传送信息的复杂