基于统计分析的有表现力语音合成研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zhangduanhua0505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
髓着计算机硬件水平的不断发展,现有的语音合成技术已经基本解决了朗读风格语音合成的可懂度与自然度问题,语音合成相关的产品也越来越多的出现在人们的日常生活中。然而另一方面,人们对于语音合成系统的要求也日益提高,不再局限于简单的文本信息播报,而是希望机器能够具有与人类相似的通过语言表达情感的能力。因此,近些年来,具有表现力的语音合成受到人们越来越多的关注,也成为语音合成领域的一个研究热点。 有表现力语音包括很多方面,其中不同情感、语气语调以及焦点的表现都是有表现力语音研究的重要方面。本文采取参数统计的方法,分析了情感语音的韵律表现,并分别利用SFC模型和Trainable TTS对情感语音和焦点语音建模,取得了较好的韵律表现效果。整篇文章的结构安排如下: 第1章是绪论,其中简单介绍语音合成研究的内容、原理以及现有的一些主要合成方法; 第2章中将介绍情感语音和焦点重音的概念,情感语音的声学特性以及常见的情感语音合成方法; 第3章中将介绍韵律建模的方法,重点介绍SFC模型,并利用SFC模型的分层叠加的特点对情感语音做韵律分析。在此基础上添加改变SFC的韵律层次,通过单独情感建模和混合情感建模两种方法对情感语音建模,合成语音能够较好的表现情感韵律。 第4章中重点介绍可训练语音合成系统(Trainable TTS),在SFC模型情感韵律分析的结果基础上利用Trainable TTS对情感语音以及语气语调语音建模,合成语音有较好的表现力。接着针对焦点语音的韵律特点,结合SFC模型和Trainane TTS的特点,在Trainable TTS建模中引入SFC模型的分层建模的思想,对焦点语音的建模分成陈述句建模和焦点相关参数建模,得到较为普适的焦点模型。 最后将对全文进行总结,并指出现有方法中存在的问题以及可能的改进方法。
其他文献
在日益复杂的现代立体化综合战争和对应的电磁环境下,雷达系统和通信系统作为电磁信息的主要载体,数字化集成的趋势越来越明显,这为雷达通信一体化设计的实现提供了可能。频控阵
随着互联网的迅速发展,快速准确获取信息成为制约各行业发展的瓶颈。互联网作为全球最大的信息资源宝库,受到了越来越来多地重视,通用搜索引擎应运而生。然而,通用搜索由于“信息
轮胎是汽车上的一个重要部件,它的质量直接关系到汽车的运行性能和安全性能。目前,轮胎生产厂家为了提高质量、规范生产管理,都在建立以轮胎标识码为索引的信息管理系统。由
面对未来无线通信系统高数据速率、高频谱效率传输的需求,以及潜在可用频段提高导致的无线覆盖降低问题,传统的蜂窝小区结构越来越难以胜任,需要进行升级。将中继技术引入蜂窝小
移动Ad hoc网络(MANET)是当前网络技术发展热点,它提供了方便的组网方式,允许组网节点自由移动和共享资源。目前,移动Ad hoc网络的路由层、链路层和物理层协议已经有了大量的研
简牍是我国古代在纸张发明以前主要的文字载体,保存了丰富的历史文化信息,是中华民族宝贵的古代文化遗存;同时,简牍文字内容丰富、书体多样,演绎了中国软笔书法史的几个重要
正交频分复用(OFDM)是一种并行的多载波传输方案,它利用相互正交的多个子载波来传输信息,具有较高的频谱利用率和良好的抗多径干扰能力,适用于高速率和多媒体数据传输,被认为是未
近年来,无线网络技术的发展十分迅速。尤其基于IEEE 802.11的无线局域网,由于技术成熟,价格低廉,已经相当普及。基本上所有的笔记本电脑,部分台式电脑,以及手机等其他数码产品都具
早在1948年,香农就导出了信道容量公式并证明了香农定理。香农信息论自创立至今已历经了整整60年。在香农信息论的指引下,经典通信理论和通信技术得到了飞速的发展。特别是在
简牍是我国古代最早的书籍形式,由竹片或木片制成,用于记载古代的军事、文化、户籍和司法等资料。随着大量珍贵简牍文物的出土,繁重的工作量也随之而来。其中包括了对简牍的