论文部分内容阅读
随着计算机硬件水平的不断发展以及基于大语料库单元挑选和波形拼接方法的广泛采用,现有的语音合成技术已经基本解决了朗读风格语音合成的可懂度与自然度问题,语音合成相关的产品也越来越多的出现在人们的日常生活中。然而另一方面,人们对于语音合成系统的要求也日益提高,不再局限于简单的文本信息播报,而是希望机器能够具有与人类相似的通过语言表达情感的能力。因此,近些年来,具有情感表现力的语音合成受到人们越来越多的关注,也成为语音合成领域的一个研究热点。
与语音声源参数相关的“音质”特征是语音信号中表达不同情感的一个重要声学参数,也是情感语音研究的一个重要方面。本文以情感语音分析与合成研究为应用背景,提出了一种利用语音信号频谱中的声源相关特征进行语音频谱分解和声源参数度量的方法,整篇文章的结构安排如下:
第1章是绪论,在其中将简单介绍情感语音研究的内容、与情感表达相关的语音参数,重点介绍语音中“音质”特征的定义与描述,以及一些常用的声源分析与度量方法,并分析这些方法中可能存在的问题;
第2章中将详细介绍本文提出的基于语音频谱分解的声源参数提取方法,整个方法是在STRAIGHT语音分析合成算法基础上实现的,提出的方法包括两种,一种是基于混合高斯的频域建模与声源度量的方法,另一种是基于LF模型频域特征的声源参数提取算法,通过实验可以证明这两种方法在声源分析上的有效性;
本文在第3章中重点介绍提出的基于LF模型频域特征的声源分析方法在情感语音分析/合成中的应用,包括针对情感语音自然语流的参数提取效果评测、针对不同情感语音的声源参数对比统计等,并实验证明了通过利用该声源提取算法在情感语音合成系统中进行声源频谱的调整,可以提高合成系统的情感表现能力;
在第4部分中将对该声源分析方法在语音合成其他方面的应用进行介绍,包括语音信号基频调整、可训练的语音合成系统等。
最后将对全文进行总结,并指出现有方法中存在的问题以及可能的改进方法。