论文部分内容阅读
随着人工智能时代的到来,越来越多的智能设备走进人们生活,语音作为人机交互的重要接口,为生活带来了巨大便利,因此众多学者将语音处理的相关技术引入各个领域。但是目前的语音识别等技术都是建立在实验环境下,而在嘈杂的实际应用场景往往得不到好的效果。因此能够去除背景噪声或其他无关人说话干扰的语音分离技术有很大的应用空间。生成对抗网络作为一个新兴的深度学习网络,在原有的单一深度学习模型的基础上,增加了判别模型,提高模型的学习能力。目前在图像生成领域,生成对抗网络有着非常突出的成绩,但是在语音分离问题上尚未有所开发,本文首次将生成对抗网络应用于语音分离问题。同时目前语音分离技术一般都是基于预先提取的音频特征作为网络输入,忽略了在提取特征的过程中造成语音高频部分以及相关性信息的损失,以及在变换过程中可能会引入虚假信息从而对语音分离的性能造成影响。所以本文采用生成对抗网络,以原始语音信号的波形作为输入,实现端到端的语音分离模型,并在原有网络的基础上从以下几个方面对网络性能进行提升。1、针对传统声学特征提取方法需要经过傅里叶变换、离散余弦变换等操作,提取复杂特征作为输入的过程中会造成能量损失的问题,本文选择以语音信号的原始波形作为生成对抗网络的输入,通过模型来学习语音信号深层次的声学特征。2、提出基于生成对抗网络的端到端多语音分离框架。以在图像生成领域取得新突破的生成对抗网络为原型,采用深度卷积生成对抗网络DCGAN来提高网络稳定性,全卷积的网络结构提高了音频特征在时间上的紧密相关性,减少训练参数并缩短了训练时间。同时根据语音分离问题的特点加以改进,弥补了原有网络的不足进一步提升分离效果并根据实验结果进行分析。3、为解决多语音分离问题,本文采用掩码循环的方式建立隐层变量与多分离目标之间的互信息。同时根据生成对抗网络生成模型与判别模型之间相互博弈的关系,将判别模型中判为真的数据反向传播作为生成模型的标签,实现数据扩张。一方面充分利用数据,完善训练效果,另一方面也解决了生成对抗网路中存在的不平衡问题。本文研究发现,生成对抗网络在经典语音分离模型中增加了判别模型,能够有效地提高分离的性能。应用于图像生成领域的生成对抗网络在语音分离领域同样取得了很好的效果。生成对抗网络在语音分离问题上的成功应用,也为语音信号处理领域提供了新思路。