论文部分内容阅读
语音转换(Voice Conversion,VC)技术作为语音识别和语音合成的分支,在文本转语音、影视业、信息安全、语音翻译等中具有重要的作用。近年来,深度学习和神经网络方法的不断革新更加推动了语音转换研究的迅速发展和热潮。语音转换技术是一种在不改变源说话人(Source Speaker)语音内容的情况下,将源说话人语音转换成目标说话人(Target Speaker)语音的方法。目前的语音转换技术存下以下问题:(1)目前大多数语音转换算法只适用于一些限定的说话人之间,不能实现任意说话人之间的语音转换,使用场景受到了很大程度的约束;(2)目前主流技术对源说话人语音和目标说话人语音进行特征分离时,分离效果不理想;(3)目前大多数模型转换后的语音音质还存在一些问题,语音转换质量有待提高。针对问题(1),本文构建了基于特征分离的Encoder-Decoder结构的语音转换模型。Encoder由两部分组成:说话人编码器(Speaker Encoder)和内容编码器(Content Encoder)。说话人编码器从目标说话人语音中分离出目标说话人特征,生成带有目标说话人音色的表示,称为说话人表示或特征(Speaker Representations);内容编码器从源说话人语音中分离出内容特征,生成含有源说话人语音内容的表示,称为内容表示或特征(Content Representations),Decoder即解码器将说话人表示和内容表示合成,生成带有源说话人语音内容的目标说话人语音。本文语音转换模型只需要输入任意的源说话人语音和目标说话人语音就可以实现任意两个说话人之间的语音转换,亦称为一键(one-shot)语音转换。针对问题(2),本文对基础的说话人确认模型进行优化,得到优化后的说话人确认模型SVINGE2E(Speaker Verification with Instance Normalization using Generalized Endto-End loss),SVINGE2E模型相比基础的说话人确认模型最高提升了41.72%。将训练后的SVINGE2E作为语音转换模型中的说话人编码器,此说话人编码器可以有效的提取说话人的音色信息。在语音转换模型训练中,优化内容编码器将双向LSTM作为信息过滤器并使用内容损失函数优化内容编码器,使得内容编码器能有效的去除语音中的源说话人信息,提取源说话人语音中的内容信息。针对问题(3),为了提高生成的语音质量,在训练语音转换模型时,提出递进训练法。第一步将重构损失函数作为模型损失函数,训练模型重建语音频谱的能力。第二步将重构损失函数和内容损失函数作为模型损失函数,模型在重建语音频谱的同时,优化内容编码器。实验表明递进训练法生成的语音音质更好。通过上述改进,本文构建并实现了基于特征分离的任意说话人语音转换算法。实验结果验证了本文算法的有效性,转换效果达到了较好的水平。