论文部分内容阅读
种类繁多的噪声存在于现实生活中的每一个角落,严重污染了人类赖以交流的语音信号。虽然现有的语音增强方法很多,但在低信噪比复杂噪声环境下,往往达不到实际应用的需求。针对低信噪比复杂噪声环境下语音增强算法的局限性,本文重点围绕基于BP神经网络和多特征的语音端点检测算法、基于深度神经网络(Deep Neural Network,DNN)的噪声分类方法以及基于DNN和噪声分类的改进最小均方误差自适应滤波(Improved Least Mean Square Adaptive Filtering,ILMSAF)语音增强算法等三方面展开研究工作。本文的研究工作主要由以下三部分组成:(1)为了提高语音端点检测算法在低信噪比复杂噪声环境下的性能,本文提出了一种基于BP神经网络和多特征的语音端点检测算法。首先,结合语音信号的时频域特征,对含噪语音提取短时自相关函数最大值和频带方差。其次,将这两种特征组成一个二维矢量输入到BP神经网络并进行训练和建模,然后利用遗传算法优化BP神经网络的参数。最后选取一个自适应阈值,利用训练好的BP神经网络判断当前帧信号的类别。实验结果表明,相较于单一特征和线性模型,本文所提算法在低信噪比复杂噪声环境下,具有更好的适应性和鲁棒性,并进一步提高了噪声环境下语音端点检测的正确率。(2)针对不同类型的噪声对语音信号的影响不同,为了使语音增强算法适用于不同的噪声环境,本文提出了一种基于DNN的噪声分类算法。该方法首先对(1)中的非语音段信号提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和一阶梅尔频率倒谱系数(first-order MFCC,?MFCC)。其次,将MFCC和?MFCC组成一个24维矢量输入到DNN中进行训练和建模。最后利用训练好的DNN判断出当前帧信号的噪声类型。实验结果表明,相较于基于高斯混合模型(Gaussian Mixture Model,GMM)的噪声分类方法,本文所提算法的分类准确率被提高了。(3)针对现有的语音增强算法在低信噪比环境下性能不理想、在多种类型噪声环境下适应性差以及难以处理非平稳噪声信号的缺点,本文提出了一种ILMSAF语音增强模型。该模型通过在传统的最小均方误差自适应滤波(Least Mean Square Adaptive Filtering,LMSAF)语音增强中引入自适应系数来调整滤波器参数,使得滤波器能更有效地消除当前噪声环境中的噪声。在此基础上,本文提出了一种基于DNN和噪声分类的ILMSAF语音增强算法。所提方法首先利用深度置信网络(Deep Belief Network,DBN)估计出滤波器参数的自适应系数。然后利用ILMSAF对含噪语音进行增强,得到增强后的语音。另外,根据(2)中的噪声分类结果,训练出相应的ILMSAF模型,使得语音增强算法适用于不同的噪声环境。ITU-T G.160标准下的性能测试结果表明,与基于加权去噪自动编码器(Weighted Denoising Auto-encoder,WDA)和噪声分类的维纳滤波语音增强算法相比,所提算法在不同的语音主/客观质量测试中获得显著的提升。