基于噪声基的语音增强方法及其鲁棒性问题的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:gongbin1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在语音通信过程中,由于受到背景噪声和混响的干扰,导致语音的可懂度下降和听感变差。因此在语音通信中,通常需要使用语音增强技术。传统语音增强方法中,基于无监督学习的语音增强方法存在不合理的假设限制了其性能,近年来随着语音数据规模的增大和硬件性能的提高,基于深层神经网络的语音增强方法展现了相对无监督学习方法的极大优势。首先,我们介绍了基于深层神经网络的语音增强方法。但是传统基于深层神经网络的语音增强方法在收集真实噪声的时候,无法在覆盖度方面对噪声进行度量和控制,也就是说,这类方法侧重于数据规模,并没有对数据进行细致的分析。在数据量较大之后,噪声数据通常存在较大的冗余。此外,对于一般实验者来说,获取真实噪声通常需要支付较高的成本。针对以上问题,我们提出了基于噪声基的深层神经网络语音增强方法,并针对噪声鲁棒性问题开展了系统性的研究。其次,考虑到噪声的多样性和紧凑性,我们提出了一种基于噪声基的深层神经网络语音增强方法。因为神经网络的输入和输出及学习均是在帧这一级别进行,这给我们在更小的单元上深入分析噪声的语谱结构带来了可能。因此,首先我们验证了基于深层神经网络的语音增强方法的对噪声学习的原理。通过合理地构造一组完备的具有表征性和区分性的噪声基,在不使用任何真实噪声训练的条件下,基于噪声基的深层神经网络语音增强的方法能够获得与传统使用真实噪声的方法相当的性能,同时证明了这组噪声基和真实噪声存在互补性。再次,为了在有限的训练数据规模的条件下,让每句语音组合到更多的噪声基,同时为了让噪声基覆盖到类型更丰富的真实噪声,我们提出了一种基于噪声基并结合线性组合的噪声信号的构造方法。首先,我们介绍了通过噪声基的线性组合可以覆盖到更多噪声类型的原理。其次,根据这一原理,通过将基于噪声基并结合线性组合的噪声信号直接作为训练噪声,可以进一步提升噪声基的性能。然后,针对窄带噪声这一细分类型进行定制,可以获得比50种真实噪声更好的性能。此外,噪声基比真实噪声训练效率提高了一倍。最后,使用基于渐进学习的语音增强方法和基于多信息源融合的语音增强方法这两种新的框架,在丰富的训练集外的窄带/宽带噪声类型和训练集外的语音上验证了我们的结论,即在不使用任何真实噪声训练的条件下,噪声基在新的框架下仍然能够获得与传统使用真实噪声的方法相当的性能,展现了噪声基对丰富类型集外噪声的泛化能力。
其他文献
数字图像修复是当今计算机视觉和计算机图形学中的研究热点,它是利用图像中的有效信息来填充指定破损区域信息的一种技术。该项技术在保护文物、制作影视特技、修复老照片、去
随着无线通信的迅猛发展,人们对通信的传输速率和服务质量要求越来越高。在实际的通信系统中,阴影衰落、路径损耗和多径效应等严重影响了通信的传输速率和服务质量。协作通信
本文主要针对LDPC码的校验矩阵构造、译码算法和性能分析及错误平层消除等问题进行了学习和研究。文章采用比对的方法,说明了代数构造的结构化LDPC码与随机构造的LDPC码相比,其
压缩传感理论是近年来比较热门的一种理论,它在信号是稀疏或可压缩的前提下能用远远低于奈奎斯特采样定律要求的采样频率对信号进行采样,且能够保证信号的精确重构。相较于传统
随着计算机技术的发展,基于图像处理的产品表面缺陷检测技术的优势越来越明显。金属表面具有高反光和拉丝特性,所以金属工件表面缺陷的检测一直是非常困难的问题,本文将金属表面
车载自组织网络(Vehicular Ad Hoc Network, VANET)结合了自组织网络、无线网络、蜂窝网络等多种网络技术,由道路上行驶的车辆节点和路边基础设施组成,能支持车辆间和车辆与