论文部分内容阅读
语音转换的目的是在保持语义内容不变的前提下,将源说话人语音的个性特征改变,转换成具有目标说话人个性特征的语音,使得听起来像目标说话人的发音。语音转换技术的研究是语音信号处理领域一个比较重要的分支,它可以促进语音合成、语音编码等领域的研究,同时也有着广泛的应用前景。目前比较主流的语音转换方法是基于高斯混合模型(GMM)的转换方法,该方法虽然可以取得较好的语音转换效果,但是由于GMM方法假设各个语音参数帧之间是统计独立,忽略了语音相邻帧之间的相关性,从而使转换后的语音有一定的不连续,其次,由于传统的GMM模型在语音的参数化表达下对特征矢量进行加权平均,必然会引起参数的过平滑。本文提出了一种超帧特征空间下基于深度置信网络(DBN-Sf,Deep Belief Nets in Super-frame feature space)的语音转换方法,它是将深度置信网络构成的深度神经网络作为回归模型来映射源和目标说话人频谱参数之间的非线性关系。首先利用STRAIGHT提取说话人的基频和短时谱参数,从短时谱参数中求得对应的LPCC参数,利用动态时间规整将源和目标说话人的特征参数进行对齐,通过扩展源说话人当前的语音帧来构建超帧信息作为网络的输入,目标说话人对应的当前帧作为网络的输出,经训练得到短时谱转换函数。实验结果显示,使用该方法的转换语音在谱失真、目标倾向性和语音质量等方面均优于传统的高斯混合模型方法,转换语音的平均谱失真度相对于传统的GMM方法降低了9.5%。