论文部分内容阅读
髓着计算机硬件水平的不断发展,现有的语音合成技术已经基本解决了朗读风格语音合成的可懂度与自然度问题,语音合成相关的产品也越来越多的出现在人们的日常生活中。然而另一方面,人们对于语音合成系统的要求也日益提高,不再局限于简单的文本信息播报,而是希望机器能够具有与人类相似的通过语言表达情感的能力。因此,近些年来,具有表现力的语音合成受到人们越来越多的关注,也成为语音合成领域的一个研究热点。
有表现力语音包括很多方面,其中不同情感、语气语调以及焦点的表现都是有表现力语音研究的重要方面。本文采取参数统计的方法,分析了情感语音的韵律表现,并分别利用SFC模型和Trainable TTS对情感语音和焦点语音建模,取得了较好的韵律表现效果。整篇文章的结构安排如下:
第1章是绪论,其中简单介绍语音合成研究的内容、原理以及现有的一些主要合成方法;
第2章中将介绍情感语音和焦点重音的概念,情感语音的声学特性以及常见的情感语音合成方法;
第3章中将介绍韵律建模的方法,重点介绍SFC模型,并利用SFC模型的分层叠加的特点对情感语音做韵律分析。在此基础上添加改变SFC的韵律层次,通过单独情感建模和混合情感建模两种方法对情感语音建模,合成语音能够较好的表现情感韵律。
第4章中重点介绍可训练语音合成系统(Trainable TTS),在SFC模型情感韵律分析的结果基础上利用Trainable TTS对情感语音以及语气语调语音建模,合成语音有较好的表现力。接着针对焦点语音的韵律特点,结合SFC模型和Trainane TTS的特点,在Trainable TTS建模中引入SFC模型的分层建模的思想,对焦点语音的建模分成陈述句建模和焦点相关参数建模,得到较为普适的焦点模型。
最后将对全文进行总结,并指出现有方法中存在的问题以及可能的改进方法。