论文部分内容阅读
让计算机具备情感语音交流能力一直是人机交互领域的研究难点和热点。在人类交流的过程中,语音信号既含有丰富的文本信息,也包括了说话人的情感特征。为了获得更富有情感的机器语音,针对机器合成的语音信号进行情感转换研究显得尤为重要。情感语音转换是一种研究将中性音转换为带有某类情感语音的技术,广泛使用于情感识别、医疗、军事等领域。本文主要针对情感语音转换中的特征和转换模型进行研究,主要的研究内容如下:首先,提出了一种采用L1/2稀疏约束美尔频率倒谱系数(MFCC)的语音重建方法。在语音重建中,通常需要同时在模型中输入多类声学特征参数,比如共振峰模型需要输入共振峰参数和基频参数,而MELP模型则需要基频、子带语音强度、清浊音标记、残差峰值、帧能量等参数。理论上,模型特征参数越多,重建后语音自然度和可理解的程度越好;但与此同时计算量也会增大,重建后的语音质量受不同特征参数估计是否准确影响很大。所以,参数的选取对重建后语音的效果至关重要。然而,从MFCC中估计语音幅度谱是欠定问题。为此,本文在从梅尔倒谱系数估计语音幅度谱时引入L1/2正则化约束,并利用求解的稀疏幅度谱估计相位谱,最后利用估计的频谱重建时域语音信号。这种方法不仅证明了L1/2稀疏约束方法在语音转换上有很好的逆重构性能,而且说明了MFCC特征能更好的模拟人耳的听觉特性。其次,本文提出了一种采用双向长短时记忆网络的情感语音变换方法。传统的语音情感转换主要包括神经网络(Neural Networks,NNs)、高斯混合模型(Gaussian Mixture Model,GMM)、非负矩阵分解(Non-negative matrix factorization,NMF)等方法。其中高斯混合模型和非负矩阵分解只适合特征之间关系的线性表示或者简单的分段线性表示。且GMM的转换函数是由局部回归函数和组成,模型中采用多个高斯核,因此高斯混合模型很容易产生训练数据过拟合。与高斯混合模型不同,神经网络方法训练出的转换规则是非线性的,因而其转换效果通常要比GMM模型更好。但是神经网络模型对于输入的每帧语音特征视为独立的输入特征,无法刻画语音序列的帧间相关性,而双向长短时记忆网络(BLSTM)模型可以很好表达时序相关性。因此,本文提出采用BLSTM模型实现中性语音特征到情感语音特征的映射,然后通过L1/2稀疏约束方法实现将转换后情感特征重建悲伤、愤怒、高兴等情感语音。实验结果表明,使用本方法得到的情感语音有较好的自然度。