论文部分内容阅读
语音合成,也就是我们熟知的文语转换(TTS),是一种将给定的输入文字转换成人造的智能语音的技术。近年来,随着计算机技术的快速发展,语音合成技术被广泛应用于各种应用中,例如汽车内置导航系统、电子书阅读系统、盲人的语音提示器以及为有语言障碍的人提供各种帮助。语音合成作为未来人机交互的重要一步,将在人们日后的生活中发挥越来越大的用处。因此,本此论文详细研究了目前国内的语音合成的技术现状及方法,并在此基础上,搭建起了一套适用于中文的语音合成系统。本文首先对语音合成的概念、发展历史和方法现状进行介绍,最终选取了基于隐马尔可夫模型(HMM)的语音合成方法,接下来阐述了HMM的相关原理及对应的前向-后向算法、Viterbi算法以及Baum-Welch算法,然后对基于HMM开发的语音合成工具HTS进行了研究,确定了本次语音合成系统的框架。针对中文的语法特点,我们提出了以中文音素作为语音合成基元,对语音的声学参数进行HMM建模,为了很好地标注了上下文语境的信息,我们将中文句子划分为6个结构层次,设计了200多个用于决策树聚类的问题集,并独立设计构建了一套包含550句语音文件和精确标注文本的中文语料库。对语料库进行HMM训练,通过参数调优,确定了最终的HMM模型,通过后端语音合成器,合成了具有一定可懂度和自然度的中文语音。最后通过对测试结果的分析,明确本次语音合成系统以后的改进方向。