论文部分内容阅读
语音是人们使用最频繁的交流方式,也是人们传递信息最重要的手段之一。语音增强是指在语音信号受到噪声干扰时,通过相应算法抑制噪声,提高信号质量的技术,它在语音通信、人机交互、智能终端、公安侦查等领域具有广泛的应用。在基于深度神经网络(Deep Neural Network,DNN)的语音增强方法中,DNN模型建立了带噪语音特征与干净语音特征之间的映射。为了利用上下文信息,DNN模型将几帧语音特征拼接起来作为输入,这可能会导致语音损伤。而且其在训练时语音特征的各帧之间是独立的,难以学习到邻近语音帧之间的相互关系。长短时记忆(Long Short-Term Memory,LSTM)模型可以学习到语音序列的动态变化特性,在训练时充分利用了邻近语音帧间的相互关系。然而LSTM模型直接将语音特征扁平化输入,无法利用语谱图中时间维度和频率维度的相互关系,也无法利用语音的下文信息。而且其参数量巨大,对计算能力要求较高。针对上述问题,本文研究了基于深度学习的语音增强方法,主要工作内容如下:(1)提出了一种结合注意力机制的DNN语音增强方法。该方法将注意力机制的思想应用到语音增强中,主要思想是在全连接层前添加注意力层,先利用注意力层求出每帧对应的权重,然后将各帧乘以权重后再拼接成长向量输入到DNN模型中。此时注意力层起到了筛选输入信息的作用,可以提高模型的信息利用效率,进而改善增强效果。实验证明所提方法可以有效提升增强后的语音质量。(2)改进了一种基于LSTM模型的语音增强方法。该方法不再仅将当前时刻的语音特征作为模型的输入,而是将当前帧及其前后几帧拼接起来一起输入到模型中,使LSTM模型可以在丰富的上下文信息中进行训练。同时在模型中添加注意力层,用来对输入信息进行筛选,并将全局方差均衡应用到模型中,用于缓解过平滑问题。最后通过实验证明了改进方法的有效性。(3)给出了一种结合卷积神经网络(Convolutional Neural Network,CNN)与门控循环单元(Gated Recurrent Unit,GRU)的语音增强方法。在该方法中,输入语谱图被卷积网络编码为高维特征,随后特征向量经过两层GRU网络建模,最后输入全连接层并经过线性激活生成增强后语音的语谱图。该模型充分利用了CNN的特征提取能力以及GRU网络的时间建模能力。实验证明所提方法可以在较少的参数数量下取得更好的增强效果。