论文部分内容阅读
传统的单通道语音增强算法虽然已经取得了很多进展,但是在应对现实生活中常见的非平稳噪声时,增强语音中往往会出现语音失真或者残留‖音乐噪声‖等问题。因此,如何在非平稳噪声环境下获得较好的增强语音成为实际应用中亟需解决的一项课题。本文利用梅尔频谱域的隐马尔可夫模型(Mel-Frequency Spectral domain Hidden Markov Model,MFS-HMM)提出了一套完整的语音增强方案。本文的研究工作包含如下三部分内容:第一,基于现有的MFS-HMM语音增强算法,提出了一种改进的基于MFS-HMM的语音增强算法。基于MFS-HMM的语音增强过程实质上是用加权滤波器对含噪语音进行滤波的过程。在改进算法中,本文先在梅尔频谱域和对数幅度域并行训练HMM,解决了由于滤波器估计不准确而带来频谱损失的问题。其次,本文将泰勒矢量级数(Vector Taylor Series,VTS)应用于含噪语音的HMM参数估计中,使得含噪语音的HMM参数与含噪语音更加匹配,从而使得加权滤波器更适用于含噪语音。HMM的并行训练和VTS的引入使得背景噪声得到有效抑制,大大提高了增强语音的主客观质量。第二,本文针对MFS-HMM语音增强算法中训练集和测试集能量不匹配问题,提出了一种基于能量调整的MFS-HMM语音增强算法。在该算法中,本文根据迭代期望最大(Expectation Maximization,EM)法在线调整纯净语音和噪声的对数谱能量,并在线修正纯净语音和噪声HMM的参数,使得训练集和测试集能量相匹配,有效地解决了能量不匹配对增强语音质量影响的问题,进一步提高了增强语音的主客观质量。最后,本文将所提语音增强算法应用到ITU-T G.718语音编码标准中的12kb/s编码器的前端。主客观质量测试结果均表明,所提方法优于G.718编码器中自带的语音增强方法,在噪声环境下,能获得较高质量的编码语音。