基于深度学习的梅尔声谱图预测方法的TTS实现

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:ie286
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成是通过机械的、电子的等方式产生人造语音的技术,在当今人工智能发展的浪潮中又表现出了新的高度。在语音合成的三个层次中,文语转换(Text-To-Speech,TTS)是现代主要发展研究的方向,其主要是采用文本文字叙述的表达方式通过一系列方法产生人类发出的声音。波形拼接法与统计参数法是两个在该领域比较流行的合成方法。这些方法都存在工作量大,合成的语音自然度低等缺陷。本论文围绕基于深度学习方法的预测语音合成所需的中间声学特征,旨在研究高效且生成语音质量较好的技术算法,后采用声码器的形式构建完整的合成系统。该TTS系统包含两个主要模块:文本到声学特征的预测模型块和将声学特征转换为语音的声码器模块。在TTS前端根据文本文字预测其对应的声学特征的研究中,本文以序列到序列(Sequence to Sequence,Seq2Seq)的深度学习网络模型为基础,采用更低层次的梅尔声谱图作为声学特征的表达形式,简化了Tacotron利用端到端模型预测生成梅尔声谱图的网络模型,利用卷积神经网络(Convolutional Neural Network,CNN)、注意力机制和循环神经网络(Recurrent Neural Network,RNN)的网络堆叠形式,在简化模型结构的同时,也将文字、词语、韵律等声学特征信息融合在一起,丰富了合成语音的细节。将前端预测生成的梅尔声谱图恢复成为语音时域波形的研究中,本文采用了WaveNet模型作为还原语音所需的后端声码器。因其自回归的深层网络的生成特性,预测速度慢,无法成为实时的语音合成工具被广为诟病,后又采用基于逆自回归流的并行WaveNet技术,其改进的独特之处是可以将声学特征快速转换为对应的语音时域波形,达到了实时的水准,提高了模型训练与加载的效率,输出语音的自然度更高。
其他文献
集中采购在企业实际运用中,一般是集团总部或二级企业采购管理部门将物质、工程和服务进行集中管理,包括对于直属企业生产建设也进行统一对外采购,进而将采购模式更规模和节约化。集中采购的目的是为了节约成本、让企业采购更为专业,进而达到规模效益,其将企业内外部资源和供应商进行整合,然后优化升级,进而让整个采购价值链运作效率更高,以此增强企业核心竞争力。本文以K公司集中采购管理作为研宄对象,采用多种方法相结合
合成孔径雷达(SAR)是在雷达系统基础上发展起来的一种技术,其在军用与民用领域均得到广泛的应用。新世纪以来,公共场合的安全常受到恐怖主义的威胁,因此在人员流动大的场所需要配备安检设备来保障安全。毫米波SAR发射的信号波长短,能穿透人体衣物,无电离辐射,被广泛应用于安检技术中。面向安检的三维成像技术现已成为安检领域中的重点研究内容,其需要对目标做全方位探测,并具备高分辨率、精确补偿、快速成像处理等特
云计算作为一种新兴先进的技术,凭借其可弹性扩容、费用低廉等优点,在各行各业中都得到了广泛应用。随着实体制造业和机器人技术的进步以及互联网产业不断向物联网产业靠拢,云计算的应用场景再一次得到拓宽。本课题利用云计算技术,根据实际需求,开发了一款云机器人交互系统软件,该系统包括服务端和客户端两部分,为远程监控机器人提供了许多实用功能,例如:服务端提供了虚拟网关接口,为开发人员快速接入云平台进行实验测试提
随着半导体工艺技术的发展,集成电路产品的性能越来越好,运算速度越来越快,成本也逐步降低。在先进的半导体工艺技术下,集成电路对静电放电的防护能力会下降很多,更容易因为静电放电而损伤。这会大大降低产品的成品率和可靠性。因此,为集成电路产品设计出合理的静电放电防护方案具有重要的意义。本论文对双界面卡芯片进行了全芯片静电放电防护设计,有效的解决了芯片的静电放电失效问题。论文首先从静电放电的基本模型出发,研
乡村聚落是指乡村地区人类聚集生产生活的一般场所,我国乡村聚落总体上有着数量多、规模小、内部空间布局无序分散、农村“空心化”趋势加剧等特征。随着我国城镇化速度的加快,建设用地十分短缺,土地利用不合理、闲置土地过多、一户多宅等现象逐渐凸显。农安县作为全国的农业大县,在《乡村振兴战略规划(2018-2022年)》和《吉林省乡村振兴战略规划(2018-2022)》的背景下,合理的乡村聚落空间布局不仅可以调
为了将我们国家在经济上比较落后的局面打破,顺应国际一体化贸易的各种相对激烈的竞争,关于水利这个领域同样需要贡献自己该有的力量。从提出“数字水利”之后,大家逐渐意识
内高压成形技术是空心类构件的加工工艺的未来发展方向之一,在汽车、航空、航天及船舶等零部件的制造工业广泛地被应用。对于轴线弯曲的异型截面类型的金属管状零件,通过采用
信息技术的快速发展使得网络中的数据量日益增加,这些数据之中通常含有丰富的有效信息,可供人们加以利用。为了充分挖掘其中蕴含的深层次知识,信息抽取任务顺时产生。通过信息抽取,人们能够方便得从原始数据中获取结构化的、容易理解的、可直接使用的数据。实体关系抽取正是信息抽取最为关键的子任务之一。传统实体关系抽取研究以流水线的方式处理此任务,首先识别实体,然后检测实体之间的关系。这种方法忽略了实体和关系之间的
第五代通讯技术的蓬勃发展伴随而来的是4G手机的快速淘汰,废弃手机产生量将出现新的增长高峰,基于互联网技术的废旧手机在线回收平台将迎来一次重要的发展机遇。本文以废旧手机在线回收平台为研究对象,深入研究平台的运营评价以及回收网络设计问题,为废旧手机回收行业的发展提供理论指导。在废旧手机在线回收平台运营评价中,本文采用了从“整体到局部”的研究思路。首先,基于全局化的研究视角,分析废旧手机回收行业的发展现
随着国民生活的水平大幅提高,人们的出行越加频繁,对出行的质量要求更高,承载式客车的发展符合人们的生活需求。本文结合当今世界面临的能源、安全、环境等问题,论述了承载式