论文部分内容阅读
随着人机交互的发展以及合成语音应用的推广,人们对语音合成提出了更高的要求。如果在合成语音的同时有相应的人脸动画作为辅助,可进一步提高人机交互的友好性和方便性。而合成的语音如果能模拟表达说话人的情感状态,则会提高合成语音的自然度。本文的重点主要放在情感语音的合成和语音可视化两个方面。在语音合成之前,首先构建了一个小型的情感语料库,通过引入情感语料库来增加合成语音的感情色彩,其中的语料句子分为喜、怒、惊、悲四种情感。然后应用人工神经网络的方法进行韵律建模,用来提高合成语音的自然度。在情感语料库和韵律建模的基础上,构建了一个文语转换系统,合成出具有不同感情色彩的语音。通过比较,采用基于波形拼接的语音合成方法。在语音的可视化方面,本文采用基于图像拼接的方法。通过将音素分类,映射为不同的情感图像。每种情感包括十二幅图像,不同的情感对应不同组的图像。图像间的过渡采用基于双调和样条插值算法处理,在选择特征点后进行扭曲映射,再通过交叉融合生成关键帧。为了验证合成质量与效果,本文构建了一个文本可视语音转换系统(Text-To-Visual-Speech,TTVS),并进行了计算机仿真。通过听音测试以及合成语音基频曲线对比证明,该系统合成语音的自然度较高,能够部分反映语句中的情感特征。在视觉效果上,图像间的过渡比较自然,而且通过增加选取特征点的个数,可以进一步改善图像过渡点平滑程度。