汉语TTS中的韵律建模与合成方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:zxjds
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的进步和其他相关学科的发展,在过去的几十年间,语音合成技术有了迅猛的发展,涌现出了大量的新理论和新技术。在现阶段,语音合成技术主要是以文语转换系统(Text-To-Speech,TTS)为研究重点。这是一种将输入的文本转换为语音输出的技术。TTS系统一般由文本分析、韵律控制、语音合成和基元库四个模块组成。这四个模块并不是相互孤立的,每一个模块的性能都对最终输出语音的质量有很大的影响。对合成系统输出语音音质的评价是多方面的,但主要集中在输出语音的清晰度,可懂度和自然度这三个方面。当前,TTS系统的输出语音在清晰度和可懂度方面已经达到了比较高的水平,而在语音的整体自然度方面还有待提高。本文主要研究了韵律控制和语音合成这两个模块,希望通过对这两个模块的研究与改进来提高合成语音的自然度。韵律控制模块对合成语音的自然度有很大的影响,对这部分的研究包括多个方面,这里选择韵律建模作为研究重点。韵律模型可以将一些定性的高层韵律信息转换为定量的声学参数,以便提供给后面的语音合成模块使用。本文运用人工神经网络技术设计并实现了一个用于预测汉语音节基频曲线、时长和停顿的模型。实验表明,这个模型在一定程度上能够较好的反映汉语陈述句中音节的基频曲线、时长和停顿的变化情况。语音合成模块负责最终语音的输出,现在普遍采用波形拼接技术。在选择最优的合成基元序列的同时,此模块也需要对其中一些语音波形做适当的修正,以使合成语音听上去更加流畅自然。本文在研究了最优基元选择算法的同时,也研究了一种基于傅立叶变换的语音频谱平滑算法。此算法能够较好的进行语音频谱平滑并且在一定程度上避免了传统算法使合成语音质量有较大下降的问题。为综合验证算法的性能,本文构建了一个简易的TTS系统,在其中采用了上面介绍的算法。听音测试表明,此系统的合成语音自然度较高。
其他文献
计算机应用系统的交互性特点越来越突出,人们对系统用户界面(UI)也提出了越来越高的要求。这使得UI在计算机应用系统中日益成为一个决定系统成败的主要组成部分,据统计,在一
目的:探讨肝硬化合并食管胃底静脉曲张破裂出血(esophageal-gastric variceal bleeding,EGVB)的预后因素,为肝硬化合并EGVB的预防、临床治疗及预后判断提供依据。方法:选取暨
探究不同生物有机肥对西瓜生长发育和果实品质的影响,为西瓜合理施肥提供理论依据,以‘中农花冠’为试验材料,研究复合肥(CK)、鹌鹑粪肥(T1)、油渣肥(T2)、高蛋白肥(T3)和复
小胶质细胞是中枢神经系统的“感受器”,当脑内微环境发生变化时它首先被激活,活化后的小胶质细胞通过释放细胞因子和活性氧(Reactive OxygenSpecies,ROS)等对周围环境进行调
目的:分析治疗急性扁桃体炎应用耳尖放血的临床疗效。方法:选择74例我院2018年2月至2020年1月间收治的急性扁桃体炎患者作为分析对象,通过双盲法将其等分为试验组(n=37)及常