论文部分内容阅读
在语音通信过程中,由于受到背景噪声和混响的干扰,导致语音的可懂度下降和听感变差。因此在语音通信中,通常需要使用语音增强技术。传统语音增强方法中,基于无监督学习的语音增强方法存在不合理的假设限制了其性能,近年来随着语音数据规模的增大和硬件性能的提高,基于深层神经网络的语音增强方法展现了相对无监督学习方法的极大优势。首先,我们介绍了基于深层神经网络的语音增强方法。但是传统基于深层神经网络的语音增强方法在收集真实噪声的时候,无法在覆盖度方面对噪声进行度量和控制,也就是说,这类方法侧重于数据规模,并没有对数据进行细致的分析。在数据量较大之后,噪声数据通常存在较大的冗余。此外,对于一般实验者来说,获取真实噪声通常需要支付较高的成本。针对以上问题,我们提出了基于噪声基的深层神经网络语音增强方法,并针对噪声鲁棒性问题开展了系统性的研究。其次,考虑到噪声的多样性和紧凑性,我们提出了一种基于噪声基的深层神经网络语音增强方法。因为神经网络的输入和输出及学习均是在帧这一级别进行,这给我们在更小的单元上深入分析噪声的语谱结构带来了可能。因此,首先我们验证了基于深层神经网络的语音增强方法的对噪声学习的原理。通过合理地构造一组完备的具有表征性和区分性的噪声基,在不使用任何真实噪声训练的条件下,基于噪声基的深层神经网络语音增强的方法能够获得与传统使用真实噪声的方法相当的性能,同时证明了这组噪声基和真实噪声存在互补性。再次,为了在有限的训练数据规模的条件下,让每句语音组合到更多的噪声基,同时为了让噪声基覆盖到类型更丰富的真实噪声,我们提出了一种基于噪声基并结合线性组合的噪声信号的构造方法。首先,我们介绍了通过噪声基的线性组合可以覆盖到更多噪声类型的原理。其次,根据这一原理,通过将基于噪声基并结合线性组合的噪声信号直接作为训练噪声,可以进一步提升噪声基的性能。然后,针对窄带噪声这一细分类型进行定制,可以获得比50种真实噪声更好的性能。此外,噪声基比真实噪声训练效率提高了一倍。最后,使用基于渐进学习的语音增强方法和基于多信息源融合的语音增强方法这两种新的框架,在丰富的训练集外的窄带/宽带噪声类型和训练集外的语音上验证了我们的结论,即在不使用任何真实噪声训练的条件下,噪声基在新的框架下仍然能够获得与传统使用真实噪声的方法相当的性能,展现了噪声基对丰富类型集外噪声的泛化能力。