论文部分内容阅读
随着计算机技术的进步和其他相关学科的发展,在过去的几十年间,语音合成技术有了迅猛的发展,涌现出了大量的新理论和新技术。在现阶段,语音合成技术主要是以文语转换系统(Text-To-Speech,TTS)为研究重点。这是一种将输入的文本转换为语音输出的技术。TTS系统一般由文本分析、韵律控制、语音合成和基元库四个模块组成。这四个模块并不是相互孤立的,每一个模块的性能都对最终输出语音的质量有很大的影响。对合成系统输出语音音质的评价是多方面的,但主要集中在输出语音的清晰度,可懂度和自然度这三个方面。当前,TTS系统的输出语音在清晰度和可懂度方面已经达到了比较高的水平,而在语音的整体自然度方面还有待提高。本文主要研究了韵律控制和语音合成这两个模块,希望通过对这两个模块的研究与改进来提高合成语音的自然度。韵律控制模块对合成语音的自然度有很大的影响,对这部分的研究包括多个方面,这里选择韵律建模作为研究重点。韵律模型可以将一些定性的高层韵律信息转换为定量的声学参数,以便提供给后面的语音合成模块使用。本文运用人工神经网络技术设计并实现了一个用于预测汉语音节基频曲线、时长和停顿的模型。实验表明,这个模型在一定程度上能够较好的反映汉语陈述句中音节的基频曲线、时长和停顿的变化情况。语音合成模块负责最终语音的输出,现在普遍采用波形拼接技术。在选择最优的合成基元序列的同时,此模块也需要对其中一些语音波形做适当的修正,以使合成语音听上去更加流畅自然。本文在研究了最优基元选择算法的同时,也研究了一种基于傅立叶变换的语音频谱平滑算法。此算法能够较好的进行语音频谱平滑并且在一定程度上避免了传统算法使合成语音质量有较大下降的问题。为综合验证算法的性能,本文构建了一个简易的TTS系统,在其中采用了上面介绍的算法。听音测试表明,此系统的合成语音自然度较高。