论文部分内容阅读
统计参数语音合成方法近年来吸引了越来越多研究者的关注,特别是基于隐马尔可夫模型(Hidden Markov Model,HMM)的语音合成方法。该合成方法具有输出语音平滑连贯、语音参数灵活控制、系统搭建快速和资源文件空间占用小等优点。但是该合成方法也有其局限性,如过于简单的语音分析合成模型造成合成语音的音质和清晰度都不够高和过于平滑的语音参数生成轨迹造成合成语音的自然度和清晰度都不够理想。本文以基于隐马尔可夫模型的语音合成方法为对象,对该方法中的语音参数化方法展开深入研究,在准备阶段提出了建模精度更加精确的语音分析合成模型,在合成阶段对语音参数生成算法进行了优化。本文的具体研究工作和成果如下:
提出了基于谐波噪声的混合激励模型。语音信号逆滤波后得到的残差信号,它的频谱可以通过一个最大谐波频率划分为低频段的谐波成分和高频段的噪声成分。因此在该模型中提出了基于K均值聚类的最大谐波频率估计算法,将残差信号的频谱按照每个子带划分谐波和噪声两类,通过一个维特比(Viterbi)算法搜索最优的最大谐波频率轨迹。当将该模型加入到基于隐马尔可夫模型的语音合成系统中时,最大谐波频谱作为一个独立参数流加入到模型训练。在合成时,激励信号的低频段通过一组谐波相关的正弦信号来构建,高频段采用高斯白噪声来合成。实验结果表明该方法能够有效的减弱合成语音的蜂鸣声,取得了比传统脉冲串激励模型更好的合成效果。
提出了基于残差信号频谱重构的语音分析合成模型。残差信号的频谱除了在高频段体现出噪声结构外,它还保留了一些频谱信息,这些信息在线性预测频谱中并没有进行考虑。因此,本模型采用了基于多基音周期(Pitch-ScaledAnalysis)的频谱分析方法,该方法能够方便提取残差信号中的谐波结构,并将这个谐波结构保留为激励的周期频谱。激励的非周期成分定义为残差信号频谱上的谐波噪声比,并通过最大谐波频率拟合成一条S函数曲线。当将该模型加入到基于隐马尔可夫模型的语音合成系统中时,激励周期频谱分别通过主成分分析(Principal Component Analysis,PCA)、码本索引和深层神经网络三种压缩方法进行降维和重构,并且和非周期成分作为两个独立参数流加入到模型训练。实验结果表明基于残差信号频谱重构的语音分析合成模型提高了基于线性预测的语音分析合成器和基于隐马尔可夫模型的语音合成系统合成语音的音质和清晰度。
提出了基于统计量调整的参数生成算法。基于隐马尔可夫模型的语音合成系统生成的参数轨迹存在过平滑问题,这是由于基于决策树的聚类使得语音参数严重“平均化”,生成参数的共振峰结构变得不清晰,从而造成合成语音的清晰度和自然度上不够理想,存在发闷的效果。一种改进方法是结合整体方差(Global Variance,GV)的参数生成算法,但是该方法只考虑了参数的一阶统计量和二阶统计量。因此在基于统计量调整的参数生成算法的参数生成过程中考虑了语音参数的一到四阶统计量。实验结果表明在合成语音的清晰度和自然度上基于统计量调整的参数生成算法要明显好于结合动态特征的参数生成算法,因为增加考虑了三阶和四阶统计量,其合成结果也要优于结合GV的参数生成算法。