论文部分内容阅读
语音合成解决的主要问题就是如何将文字信息转化为可听的声音信息,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,可广泛应用于智能家居、虚拟主播、语音导航、信息播报、阅读教育、泛娱乐等领域,是人机交互的重要组成部分。近年来,越来越多的研究人员使用深度学习技术对蒙古语智能信息处理相关问题展开深入研究。得益于深度学习模型强大的建模能力,蒙古语语音合成的整体质量得到了显著提升。但是,与汉语、英语等主流语种的语音合成技术相比,蒙古语语音合成研究还有很大的探索空间,要想满足合成语音质量的实用需求,还需要更进一步的深入研究。当前蒙古语语音合成系统与真实语音相比,自然度和表现力还是明显不足,主要表现在:韵律节奏缺乏表现力,合成语音音质不够高。其中,韵律建模和声学建模能力的不足是导致这些问题的主要原因。为了提高蒙古语语音合成系统的整体合成表现,本文从基于深度学习的蒙古文韵律建模和声学建模两个方面开展研究工作。在蒙古文韵律建模方面,采用深度学习技术并充分利用蒙古语语言特点和韵律建模相关任务的知识,提出了融合蒙古文形态学与音系学知识和基于多任务学习的蒙古文韵律建模方法;在声学建模方面,对端到端声学模型进行改进,提出了基于知识蒸馏和融合显式韵律信息的端到端声学建模方法。本文的创新点和主要贡献体现在以下几个方面:1.提出了融合蒙古文形态学和音系学知识的蒙古文韵律建模方法。为了提升蒙古语语音合成模型的整体韵律表现,采用循环神经网络对传统蒙古文韵律建模的模型输入和模型结构进行改进,提出了两种蒙古文韵律建模方法。第一种方法为基于词素单元的蒙古文韵律建模方法,该方法将蒙古文单词切分转化为词素单元表示,以子词单元代替蒙古文整词作为建模单元进行韵律预测。第二种方法为融合形态向量和音系向量的蒙古文韵律建模方法,该方法将蒙古文单词向量与词素向量、音系向量一起输入蒙古文韵律模型以提高蒙古语韵律预测模型的精度。实验证明两种方法可以有效提高蒙古语语音合成的自然度。2.提出了基于多任务学习的蒙古文韵律建模方法。蒙古文韵律建模任务和蒙古文字母转音素任务具有天然的相关性,传统的蒙古文韵律建模方法没有考虑两者的关系,针对传统蒙古文韵律建模过程中缺乏相关任务信息指导的问题,该方法利用多任务学习机制,将蒙古文韵律建模与蒙古文字母转音素整合到同一个训练框架,通过两个任务联合训练的方式,可以提升蒙古文韵律建模的精度,进而提升蒙古语语音合成的韵律节奏表现。3.提出了基于知识蒸馏的端到端声学建模方法。针对端到端声学模型中解码器本身自回归性质的解码方式引起的曝光偏差问题,该方法采用“教师-学生”训练框架,首先训练使用真实语音参数作为解码器输入的教师模型,之后训练使用前一时刻预测得到的语音参数作为解码器输入的学生模型,在学生模型的训练过程中,通过知识蒸馏策略,使得学生模型同时学习到教师声学模型解码器输出的隐状态和真实的语音参数分布。实验证明该方法可以使得端到端声学模型产生更加稳定的声学参数,从而合成自然度更高的语音,并且很好的缓解了合成过程中跳词、漏词、重复等问题。4.提出了融合显式韵律信息的端到端声学建模方法。端到端声学模型对<文本,语音>的映射关系进行学习,但是其韵律建模过程被隐式的包含其中,使得模型在训练过程中缺乏显式的韵律信息的指导,从而限制了其自然度的提升。该方法分别从特征级别和模型级别将韵律信息融入到声学模型。特征级别韵律信息融合方法中,将韵律向量和字符向量进行融合后输入端到端声学模型的文本编码器和声学解码器进行参数预测;模型级别韵律信息融合方法中,将韵律信息融入声学模型内部结构,具体来说,是将韵律生成器得到的韵律向量与文本编码器输出的字符向量进行融合后输入声学解码器,且韵律生成器与端到端声学模型联合训练。实验证明两种方法可以有效提升蒙古语语音合成模型的整体韵律表现。综上所述,本文通过研究韵律和声学建模,使得蒙古语语音合成系统的性能达到可用水平,为蒙古语上游语音交互系统提供基础服务,对黏着语语音合成研究有一定的启示作用。同时,本文工作也将对促进蒙古文智能信息处理和少数民族地区的人工智能技术发展贡献力量。