论文部分内容阅读
语音增强技术的目的是对带噪语音中的噪声部分进行抑制,同时尽量保留纯净语音部分。近几年,语音增强开始作为监督性学习问题来解决,模型直接从训练数据中学习到语音和噪声的区别。特别是最近基于深度学习的语音增强算法,表现出了可观的性能。本文在监督性语音增强的框架下,从两个方面展开了研究:(1)基于胶囊网络的语音增强:深度神经网络(DNN)在语音增强任务上取得了很好的性能,但是对噪声的泛化性依然存在问题。为了提高模型的泛化性能,我们提出使用胶囊网络进行语音增强。胶囊网络最开始在图像处理领域提出,表现出了对输入的仿射变换具有鲁棒性,并且胶囊网络擅长识别重叠物体。我们认为带噪语音就是语音和噪声的重叠,因此胶囊网络也适合处理语音增强问题。实验表明,基于胶囊网络的方法表现出比DNN更好的对噪声的泛化性能。(2)基于时序卷积循环神经网络的语音增强:大多数基于深度学习的语音增强方法,都是在时频域上进行。由于目标的相位很难使用模型进行直接估计,因此一般只估计频谱的幅值,而保留混合语音的相位,这会降低语音增强系统的性能。在本文的工作中,我们提出使用时序卷积循环神经网络(TCRN)进行语音增强,直接将带噪语音波形映射到纯净语音波形,从而避免显式的相位预测。TCRN是一个端到端的语音增强模型,通过时序卷积和循环神经网络的结合,分别对语音中的短时信息和长时信息进行了有效的建模。实验结果表明,我们的模型在语音可懂度和语音质量方面都优于之前的基于LSTM和CRN的方法。