论文部分内容阅读
语音增强技术在传统通信领域中,可用于增强语音信息的正确性,在新型智能电子设备中,可作为语音识别的前端处理技术,用于增强噪声环境中的语音识别功能。现有的语音增强算法有两种,传统的语音增强算法和基于神经网络的语音增强算法。前者只能在少数的噪声种类下改善语音质量,并且经常会产生多余的音乐噪声。而后者作为一种新方法,具有更高的语音增强性能,本文以神经网络算法为研究对象。
随着神经网络的发展,生成式对抗网络在图片领域取得了优异成绩,基于生成式对抗网络(Generative Adversarial Network,GAN)的语音增强算法虽然能改善传统算法在多种噪声类型环境下的泛化能力,但是它在低信噪比下的性能仍然较差。本文基于此,为改善语音增强算法在低信噪比下的性能,在算法设计中创新地采用了带梯度惩罚项的Wasserstein生成式对抗网络和条件生成式对抗网络相结合的框架,提出了一种新的语音增强算法,即SEWGAN算法。本论文的主要研究工作分为以下两个部分。
第一部分是SEWGAN算法的设计。在算法的整体框架中使用条件生成式对抗网络,目的是将带噪语音样本作为额外信息指示生成器产生对应的语音样本,由此解决了原始GAN生成的语音虽然足够清晰,但是内容却和输入的带噪语音无关的问题,提升了算法的实用性。同时,通过在算法的损失函数中使用带梯度惩罚项的Wasserstein生成式对抗网络,更好地实现了生成器拟合纯净语音的分布,因而不仅得到更好的增强性能,还增强了算法对未见噪声环境的适应能力。
第二部分是SEWGAN算法的实现。并将SEWGAN算法与传统语音增强算法、基于GAN语音增强算法进行性能比较。算法实现是在Linux上使用nvidia-docker搭建的虚拟化操作系统上进行的,采用谷歌公司的Tensorflow开源库搭建网络框架模型,在同一训练集下对SEWGAN算法进行训练,训练过程中使用了层归一化技术对算法进行归一化,同时使用Adam算法加快算法的收敛速度。之后对同一测试集上的样本,分别用SEWGAN算法、多带谱减法、维纳滤波法、对数MMSE估计器以及基于GAN的算法进行增强,之后在Matlab中分别将五种算法增强后的语音进行客观语音质量评估。
实验结果显示,SEWGAN算法与三种传统算法中性能最好的对数MMSE估计器相比较,在17.5dB、12.5dB、7.5dB和2.5dB的信噪比条件下,分段信噪比的提升分别为1.54%、17.07%、47.98%、148.72%;在对bus、cafe、living、office、psquare五种类型的噪声的抑制中,分段信噪比的提升分别为25.43%、54.98%、39.56%、16.80%、32.84%。在整个测试集上,SEWGAN算法和其中最好的基于GAN的算法相比,感知语音质量评估测度提升了9.26%,语音信号失真改善了5.46%,背景噪声干扰改善了6.80%,总体质量提高了7.14%,分段信噪比测度提高了19.15%。总之,从客观语音质量的改善方面来看,SEWGAN算法的增强性能都有明显的提升,尤其是在2.5dB低信噪比条件下的改善效果最好,比基于GAN的算法在分段信噪比上提升了17.6%。
综上,SEWGAN算法是将带梯度惩罚项的Wasserstein生成式对抗网络和条件生成式对抗网络共同应用在语音增强的一次成功实践,并取得优异的语音增强性能。
随着神经网络的发展,生成式对抗网络在图片领域取得了优异成绩,基于生成式对抗网络(Generative Adversarial Network,GAN)的语音增强算法虽然能改善传统算法在多种噪声类型环境下的泛化能力,但是它在低信噪比下的性能仍然较差。本文基于此,为改善语音增强算法在低信噪比下的性能,在算法设计中创新地采用了带梯度惩罚项的Wasserstein生成式对抗网络和条件生成式对抗网络相结合的框架,提出了一种新的语音增强算法,即SEWGAN算法。本论文的主要研究工作分为以下两个部分。
第一部分是SEWGAN算法的设计。在算法的整体框架中使用条件生成式对抗网络,目的是将带噪语音样本作为额外信息指示生成器产生对应的语音样本,由此解决了原始GAN生成的语音虽然足够清晰,但是内容却和输入的带噪语音无关的问题,提升了算法的实用性。同时,通过在算法的损失函数中使用带梯度惩罚项的Wasserstein生成式对抗网络,更好地实现了生成器拟合纯净语音的分布,因而不仅得到更好的增强性能,还增强了算法对未见噪声环境的适应能力。
第二部分是SEWGAN算法的实现。并将SEWGAN算法与传统语音增强算法、基于GAN语音增强算法进行性能比较。算法实现是在Linux上使用nvidia-docker搭建的虚拟化操作系统上进行的,采用谷歌公司的Tensorflow开源库搭建网络框架模型,在同一训练集下对SEWGAN算法进行训练,训练过程中使用了层归一化技术对算法进行归一化,同时使用Adam算法加快算法的收敛速度。之后对同一测试集上的样本,分别用SEWGAN算法、多带谱减法、维纳滤波法、对数MMSE估计器以及基于GAN的算法进行增强,之后在Matlab中分别将五种算法增强后的语音进行客观语音质量评估。
实验结果显示,SEWGAN算法与三种传统算法中性能最好的对数MMSE估计器相比较,在17.5dB、12.5dB、7.5dB和2.5dB的信噪比条件下,分段信噪比的提升分别为1.54%、17.07%、47.98%、148.72%;在对bus、cafe、living、office、psquare五种类型的噪声的抑制中,分段信噪比的提升分别为25.43%、54.98%、39.56%、16.80%、32.84%。在整个测试集上,SEWGAN算法和其中最好的基于GAN的算法相比,感知语音质量评估测度提升了9.26%,语音信号失真改善了5.46%,背景噪声干扰改善了6.80%,总体质量提高了7.14%,分段信噪比测度提高了19.15%。总之,从客观语音质量的改善方面来看,SEWGAN算法的增强性能都有明显的提升,尤其是在2.5dB低信噪比条件下的改善效果最好,比基于GAN的算法在分段信噪比上提升了17.6%。
综上,SEWGAN算法是将带梯度惩罚项的Wasserstein生成式对抗网络和条件生成式对抗网络共同应用在语音增强的一次成功实践,并取得优异的语音增强性能。