论文部分内容阅读
本文提出了利用语音转换实现兰州方言语音的生成方法。在采用Pitch Target估计模型为声调模型的基础上,提出了采用线性修改模型(LMM)生成兰州方言的方法和采用高斯混合模型(GMM)生成兰州方言的方法。论文还提出了在生成方言语音的基础上采用语音修改方法实现音色可变兰州方言的方法。论文的主要工作及贡献如下:1.提出了兰州方言的声调表示方法。在声调模型的选择上,论文讨论了现今主要的声调模型。根据兰州方言语音的特点选择语音学模型中的Pitch Target估计模型作为声调表示模型。2.提出了一种基于线性修改模型(LMM)的兰州方言生成方法。对于训练集中的普通话语音和兰州方言语音利用Pitch Target估计模型提取特征参数,分别用七维的矢量表示两种语音的声调曲线,然后利用线性回归的方法分别求得七个特征参数的转换函数。在生成语音时,首先提取待转换普通话的七个特征参数,然后利用转换函数计算出兰州方言对应的七个特征参数,生成基频F0曲线,最后利用Straight算法合成方言语音。3.提出了基于高斯混合模型(GMM)的兰州方言变换方法,使得能够在大语料库的基础上,基于统计学模型,实现普通话到兰州方言的变换。首先利用Pitch Target模型提取源语音和目标语音的特征参数,构建方言变换的训练集;然后构建普通话和兰州方言训练语音库,训练出GMM的转换参数。根据转换参数进行方言变换,得到兰州方言的F0曲线,最后利用Straight算法合成出兰州方言。实验结果表明,增加训练音库的规模,可以得到质量更好的合成语音。4.提出了音色可变兰州方言语音的生成方法。影响语音听感的参数,主要包括时域和频域参数:基频、时长、非周期指数和频谱。利用Straight语音修改算法修改方言语音的基频、时长等时域参数和共振峰等频域参数,可以得到音色可变兰州方言语音。实验结果表明,该方法能够得到较高质量的多音色兰州方言语音。