基于深度学习的蒙古语语音合成研究

来源 :内蒙古大学 | 被引量 : 8次 | 上传用户：liongliong573

【摘要】

：

语音合成解决的主要问题就是如何将文字信息转化为可听的声音信息,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,可广泛应用于智能家居、虚拟主播、语音导航

【作者】

：

刘瑞

【出处】

：

内蒙古大学

【发表日期】

：

2020年01期

【关键词】

：

蒙古语语音合成深度学习韵律建模声学建模

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音合成解决的主要问题就是如何将文字信息转化为可听的声音信息,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,可广泛应用于智能家居、虚拟主播、语音导航、信息播报、阅读教育、泛娱乐等领域,是人机交互的重要组成部分。近年来,越来越多的研究人员使用深度学习技术对蒙古语智能信息处理相关问题展开深入研究。得益于深度学习模型强大的建模能力,蒙古语语音合成的整体质量得到了显著提升。但是,与汉语、英语等主流语种的语音合成技术相比,蒙古语语音合成研究还有很大的探索空间,要想满足合成语音质量的实用需求,还需要更进一步的深入研究。当前蒙古语语音合成系统与真实语音相比,自然度和表现力还是明显不足,主要表现在:韵律节奏缺乏表现力,合成语音音质不够高。其中,韵律建模和声学建模能力的不足是导致这些问题的主要原因。为了提高蒙古语语音合成系统的整体合成表现,本文从基于深度学习的蒙古文韵律建模和声学建模两个方面开展研究工作。在蒙古文韵律建模方面,采用深度学习技术并充分利用蒙古语语言特点和韵律建模相关任务的知识,提出了融合蒙古文形态学与音系学知识和基于多任务学习的蒙古文韵律建模方法;在声学建模方面,对端到端声学模型进行改进,提出了基于知识蒸馏和融合显式韵律信息的端到端声学建模方法。本文的创新点和主要贡献体现在以下几个方面:1.提出了融合蒙古文形态学和音系学知识的蒙古文韵律建模方法。为了提升蒙古语语音合成模型的整体韵律表现,采用循环神经网络对传统蒙古文韵律建模的模型输入和模型结构进行改进,提出了两种蒙古文韵律建模方法。第一种方法为基于词素单元的蒙古文韵律建模方法,该方法将蒙古文单词切分转化为词素单元表示,以子词单元代替蒙古文整词作为建模单元进行韵律预测。第二种方法为融合形态向量和音系向量的蒙古文韵律建模方法,该方法将蒙古文单词向量与词素向量、音系向量一起输入蒙古文韵律模型以提高蒙古语韵律预测模型的精度。实验证明两种方法可以有效提高蒙古语语音合成的自然度。2.提出了基于多任务学习的蒙古文韵律建模方法。蒙古文韵律建模任务和蒙古文字母转音素任务具有天然的相关性,传统的蒙古文韵律建模方法没有考虑两者的关系,针对传统蒙古文韵律建模过程中缺乏相关任务信息指导的问题,该方法利用多任务学习机制,将蒙古文韵律建模与蒙古文字母转音素整合到同一个训练框架,通过两个任务联合训练的方式,可以提升蒙古文韵律建模的精度,进而提升蒙古语语音合成的韵律节奏表现。3.提出了基于知识蒸馏的端到端声学建模方法。针对端到端声学模型中解码器本身自回归性质的解码方式引起的曝光偏差问题,该方法采用“教师-学生”训练框架,首先训练使用真实语音参数作为解码器输入的教师模型,之后训练使用前一时刻预测得到的语音参数作为解码器输入的学生模型,在学生模型的训练过程中,通过知识蒸馏策略,使得学生模型同时学习到教师声学模型解码器输出的隐状态和真实的语音参数分布。实验证明该方法可以使得端到端声学模型产生更加稳定的声学参数,从而合成自然度更高的语音,并且很好的缓解了合成过程中跳词、漏词、重复等问题。4.提出了融合显式韵律信息的端到端声学建模方法。端到端声学模型对<文本,语音>的映射关系进行学习,但是其韵律建模过程被隐式的包含其中,使得模型在训练过程中缺乏显式的韵律信息的指导,从而限制了其自然度的提升。该方法分别从特征级别和模型级别将韵律信息融入到声学模型。特征级别韵律信息融合方法中,将韵律向量和字符向量进行融合后输入端到端声学模型的文本编码器和声学解码器进行参数预测;模型级别韵律信息融合方法中,将韵律信息融入声学模型内部结构,具体来说,是将韵律生成器得到的韵律向量与文本编码器输出的字符向量进行融合后输入声学解码器,且韵律生成器与端到端声学模型联合训练。实验证明两种方法可以有效提升蒙古语语音合成模型的整体韵律表现。综上所述,本文通过研究韵律和声学建模,使得蒙古语语音合成系统的性能达到可用水平,为蒙古语上游语音交互系统提供基础服务,对黏着语语音合成研究有一定的启示作用。同时,本文工作也将对促进蒙古文智能信息处理和少数民族地区的人工智能技术发展贡献力量。

其他文献

对公共英语学生谈谈记单词的技巧

对公共英语学生谈谈记单词的技巧蔡国华对于《大学英语》四六级考试，学生们感到题量大、难度也大的是”阅读理解”。其中词汇障碍是最明显的，它几乎成了学生能否取得好成绩的关

期刊

英语学生记单词辅音字母联想记忆元音字母重读音节同义词反义词比较记忆近义词

梁漱溟先生的文化生命理论

期刊

梁漱溟文化生命文化问题文化哲学以自然为宗文化出路刚的态度生命理论中国文化核心范畴

大数据时代企业营销信息化管理问题研究

21世纪是人类由工业文明进入信息化的时代,随着全球贸易的不断加强,营销环境也不在变化,企业的市场营销面临着信息化的挑战。本文就当前我国企业营销信息化管理存在的问题提

期刊

大数据时代企业营销信息化策略

吉林肉鸡I号选育报告

<正> 一、前言近几年来,我国肉鸡业发展很快,但由于缺乏本国培育的快长型品种,许多省(市)每年要花大量外汇从国外引进肉种鸡。尽管如此,在数量和品种适应性上仍满足不了生产

期刊

肉鸡鸡品种选育吉林

论高校德育的自我教育

我国当代道德具有流变性、重构性、多元性和后喻性等特点。高校德育的自我教育必须充分发挥学生的自我意识，重视学生群体的作用，给学生以丰富的知识背景，同时必须以正面教育为指

期刊

大学生德育正面教育自我教育高校社会学教育学道法自我意识college studentsmoral educationpositive educ

信息化管理在市场营销中的作用

近年来,伴随着经济的快速发展,尤其是在经济全球化与信息化的发展背景下,企业为了获得最大的利润,使得信息化管理在市场营销中发挥的作用越来越大。本文主要讨论了现代化市场

期刊

市场营销信息化新趋势

永磁游标轮毂电机的设计与研究

电动汽车直驱式轮毂驱动系统消除了传统齿轮箱等机械变速装置,将轮毂电机直接与车轮相连接,从而减小了驱动系统体积,降低了整车重量,提高了车辆性能。其中,轮毂电机作为动力

学位

电动汽车外转子永磁游标电机内置式转子结构磁场调制电机定转子不等长结构电机温度场

上海市黄浦区旧区拆迁补偿问题与对策研究

随着社会的不断发展,一些城市旧区的功能已经无法跟上时代的步伐,远远不能满足人们的需求。城市正面临着日益突出的问题,例如更新和改造。但由于拆迁过程涉及重大利益对于公民以及有关家庭的生活和工作,如果在拆迁补偿过程中没有合理补偿公民的合法权益,有可能导致陆续出现问题。拆迁是城市发展的重要途径,拆迁后城市将投入运行并提供功能和服务,真正创造一个良好的公民生活环境,更好地促进城市功能升级和城市发展。本文以上

学位

旧区改造拆迁补偿补偿对策黄浦区城市发展

从“邪伏少阴”探讨系统性红斑狼疮的发病机制与临床辨治

基于"邪伏少阴"理论探讨系统性红斑狼疮的病因、发病机制、病程特点以及临床症状,认为其病邪性质以热毒为主,与瘀血、痰饮相关,由于肾精亏虚,病邪乘虚内伏,因热毒引动或正气

期刊

系统性红斑狼疮邪伏少阴伏气学说病因病机

基于用户体验的电热水器设计研究

随着社会生活水平的不断提高,人们开始追求品质生活,行业更加注重产品服务体系的构建,电热水器的设计也需要在用户体验的需求下进行创新与迭代,并且5G通讯、人工智能、IMR等

学位

用户体验电热水器智能化

基于深度学习的蒙古语语音合成研究

与本文相关的学术论文