论文部分内容阅读
语音合成作为人机交互中的重要组成部分,随着语音合成的愈发成熟,目前已经能够合成出高自然度的汉语普通话语音。同时,随着机器学习的发展语音合成受到了越来越多的关注并成功应用到众多领域。除汉语普通话、英语等主流语言,近些年来对民族语言和方言的合成关注也越来越多。通过对民族语言和方言的语音合成研究,有效地提高了语音交互的多样性。中国地域辽阔,民族众多,因此在不同地区人们除了使用汉语普通话外还存在着丰富的方言和民族语言。东干语是东干族的民族语音。东干语来源于清代晚期的近代汉语西北方言,属汉藏语系汉语语支,主要分布在中亚地区,是汉语陕甘方言在中亚地区的特殊变体。本文以东干语陕西支为研究对象,提出了基于隐马尔可夫模型(Hidden Markov Model,HMM)的东干语语音合成方案和基于深度神经网络(Deep Neural Networks,DNN)的东干语语音合成方案,实现了东干语的语音合成,并对合成结果进行了对比分析。论文的主要工作和创新如下:1.创建了东干语语料库。本文通过对东干语的声韵母、词汇、句型等语言特征和基频、声调等语音学特征的分析,建立了一个共2000句的东干语语料库。该语料库覆盖了东干语的所有声母、韵母、声调、常用词汇和句型。语音语料由以东干语为母语的东干族留学生进行录制。2.设计了一套针对东干语的机读音标方案(Speech Assessment Methods Phonetic Alphabet for Dungan,SAMPA-DG)。通过对东干语的声韵母、声调、声韵配合关系等特点进行分析设计得到SAMPA-DG,将输入的文本转换为可被计算机识别的音标。并定义了适用于东干语的上下文相关标注格式,用来实现东干语语境信息的标注。3.文本提出了基于HMM的东干语语音合成方案和DNN的东干语语音合成方案,合成得到东干语语音。从实验结果上来看,当东干语训练语料数较小时,基于HMM的东干语合成的效果较好,随着训练语料的增加基于DNN的东干语语音合成效果逐渐提高并优于基于HMM方法合成的东干语语音。