论文部分内容阅读
语音增强,也称语音降噪,目的是减弱与抑制背景噪声对目标语音的干扰,从而提高语音的质量和清晰度。语音增强技术普遍运用于人们生活和工作中,是语音信号处理中尤为重要的部分。传统的单声道语音增强方法需要提前对语音与噪声信号做出假设,这导致它们的降噪性能有一定的限制。近年来随着信息网络的普及,数据集规模的增大以及计算机运算速度的提升,深度神经网络的优势得到了体现。深度神经网络相比于传统的语音增强方法的优势在于其不需要提前做出假设。本文主要的研究内容是采用深度神经网络的方法实现语音增强,利用深度神经网络强大的数据分析能力对带噪语音到纯净语音的映射关系进行拟合。整个语音增强系统分为准备阶段、训练阶段和增强阶段。准备阶段作为网络训练的前期处理工作,生成大量平行的语音数据并提取语音信号的特征,训练阶段通过反向传播过程迭代更新深度神经网络的参数,增强阶段将带噪语音通过已训练的网络进行处理,得到增强语音信号。考虑到人耳对语音的非线性感知能力,本文将语音对数功率谱的映射模型作为本文的基线系统。针对部分语音失真的情况,本文提出将语音的幅度谱特性与对数功率谱特征联合的方法。在深度神经网络的输入端拼接这两种特征,令网络同时学习和优化这两种不同的目标,这使得网络能学到不同特征之间的差异和共性,在增强阶段通过后处理方法融合两种特征,得到最终的增强语音信号。实验表明,特征联合优化的方法较明显地提高了低信噪比带噪语音的语音质量和清晰度,缓解了语音失真的情况。为进一步提高降噪性能,本文还采用跳接思想,即将原始输入数据跳跃地堆叠到每个隐藏层输出端,与输出做拼接处理,再作为下一个隐藏层的输入。这使原始输入数据得以重复利用,每个网络层学习到的特征更加复杂多样化。最后本文结合上述思想提出一种方案,即在联合优化语音对数功率谱和幅度谱特征的同时,将输入的对数功率谱特征进行跳接堆叠。该方案使含不匹配噪声的带噪语音的PESQ(Perceptual Evaluation of Speech Quality)结果提高了0.47,表明语音质量有明显的改善,也体现出改进的增强系统具有良好的降噪能力和泛化能力。