论文部分内容阅读
近年来,伴随着人工智能和模式识别等相关技术的兴起和日渐成熟,人们对更高智能化的人机交互有着强烈的需求,这种需求使得音频信号处理成为了当前热门的研究领域。歌声的音色转换是音频信号处理中的一个新兴课题,目前针对歌声音色转换的相关研究成果较少,且大部分研究工作都继承了语音音色转换的理论和方法。然而语音音色转换方法大多都是“一对一”的,只针对特定的源说话人和特定的目标说话人,并且依赖于平行数据集。显然,这种模型的泛化能力很差,且不适用于对歌声的音色转换。为此,本文以非平行数据集下的“多对多”的歌声音色转换模型为主要研究目标,以歌手的清唱音频信号为研究对象,构建了人声音色表征模型,对歌手的音色进行合理的表征;接着基于人声音色表征模型进而构建了面向歌声音色转换的模型,对歌手演唱的歌声进行音色转换;最后对音色转换后的歌声做进一步的处理和降噪,得到音质更好的音色转换后的歌声。首先,本文提出一种基于深度卷积神经网络和迁移学习的人声音色表征方法。该方法通过大量乐器音频数据训练得到基于深度卷积神经网络的乐器音色表征模型,再利用少量人声音频数据和迁移学习的方法对乐器音色表征模型进行微调,进而得到人声音色表征模型。实验结果表明由乐器音色表征模型和人声音色表征模型提取出的相应的音色特征在音色分类实验中有较好的表现。其次,本文融合人声音色表征模型,提出了一种基于变分自编码-生成对抗网络的歌声音色转换模型。该模型不依赖于平行数据集,突破了传统音色转换模型对平行数据集的依赖,且支持“多对多”的语音和歌声音色转换。实验结果表明,经由该模型生成的音色转换后的语音和歌声,不仅在MFCC误差这一客观指标上比传统平行数据集下“一对一”的音色转换模型有更好的表现,而且在主观MOS评分上,也优于传统模型。最后,本文利用由受限玻尔兹曼机堆叠而成的深度神经网络模型实现了对音色转换后音频的降噪。实验结果表明,深度神经网络降噪模型可以有效地抑制音色转换后音频中的噪声,改善其信噪比,同时提高音频的质量。