基于端到端方法的低资源东乡语语音合成的研究

来源 :西北师范大学 | 被引量 : 2次 | 上传用户:houqiusheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国是一个地域辽阔、民族众多、方言种类丰富的国家,地方民族都有着各自的地方用语。目前很多少数民族方言都被列入国家濒危语言,因此我国提倡大力保护少数民族方言这一非物质文化遗产。普通话作为国家通用语言需要在少数民族之间广泛传播,但在少数民族地区非常缺乏可以教学少数民族普通话的双语教师。因此,研究少数民族方言语音合成技术不仅可以保护民族方言,还对少数民族地区的国家通用语言教育事业有着极其重要的意义。我国有很多少数民族方言没有文字表述,例如本文所研究的东乡语,它不仅是无文字表述的语言,而且也是国家濒危语种。然而现阶段的语音合成都是文本到语音的转换(Text-To-Speech,TTS),即文本通过文本规范法、文本切分,语法分析等语言学处理,再通过声码器合成语音,这就使得无文本的东乡语语音合成变得困难。基于此,本文以东乡语作为研究对象,以汉字作为东乡语的表述方式,用汉语拼音来标注东乡音标,利用端到端的语音合成方法实现低资源的东乡语语音合成,本文的主要工作和创新如下:1.建立了一个面向东乡语语音合成的语料库。由于现有东乡语语料库数据稀少,导致训练得到的模型泛化能力较弱,影响合成语音质量。本文扩充了已有东乡语语料库,建立了一个3600句的东乡语语料库,共6个说话人,其涵盖了东乡语所有的语言特性,包括元音、辅音、词汇和语句特点等。语料录制工作在录音棚中进行,录制语音采用16k Hz采样率,16bit量化精度保存为单声道的WAV格式。论文采用汉字作为东乡语的表述方式,通过东乡语的机读音标方案(Speech Assessment Methods Phonetic Alphabet for Dong Xiang,SAMPA-DX)对东乡音标进行拼音转写。由于东乡语是低资源语音,所以本文通过手工对语料库逐句标注,提取音素时长、基频、音量,用来增强语音合成模型的泛化能力。2.提出了端到端的东乡语语音合成模型,在模型训练前,通过语音增强生成对抗网络(Speech Enhancement Generative Adversarial Network,SEGAN)将语料库中的语音进行增强预处理,以提高语料库语音质量,从而提高合成语音质量。实验结果表明,通过增强算法,原语料的PESQ得分从3.83分增加到4.06分。在模型训练中,首先运用自回归端到端模型(Tacotron2,Transformer)训练模型。但由于训练语料不足和自回归模型的缺陷,导致出现漏词跳词与合成速度慢的问题,从而影响模型泛化能力。为此,本文手工提取准确的声学特征,提出非自回归端到端模型(Fast Speech,Fast Speech2)作为改进方法。实验结果表明,Fast Speech2模型在东乡语语音合成任务的性能最优,主观评测的MOS值与DMOS值分别达到了4.3与4.1,客观评测的基频MSE、音素时长MSE以及PESQ分别为1.82、0.04以及3.81。
其他文献
车型检测技术是智能交通系统中的一个关键技术,在道路监控、自动驾驶等场景中有着广泛的应用,为我国交通强国建设提供强大的技术支撑。在车型检测研究中,为提升检测精度,车型检测模型存在复杂度高的问题,导致在实际应用时难以部署,且检测实时性不佳。因此,本文对目标检测技术展开研究并进行改进,使其更适用于车型检测任务。(1)车型检测模型的轻量化。针对车型检测实时性要求高、过于复杂的模型会降低检测速度的问题,提出
学位
在新发展理念和“双循环”发展格局下,我国钢铁、煤炭和有色金属等资源性行业面临着一系列挑战。一方面,企业在市场竞争和国际贸易中不可避免地面临着原材料、产品价格波动、汇率以及利率波动等风险。20世纪70年代以来,汇率、利率和商品等衍生金融工具的迅速发展,为企业提供了有效的风险对冲工具。我国煤炭、钢铁和有色金属上市公司参与衍生品对冲企业占比从十年前的24.82%增加到2018年的49.46%。另一方面,
学位
报纸
目的 探讨中文版病人健康问卷(PHQ-9)在FGIDs患者中的适用性及评价草酸艾司西酞普兰临床疗效。方法按罗马Ⅳ标准纳入50例功能性消化不良(FD)、肠易激综合征(IBS)伴抑郁症状且经常规治疗无效患者,加用草酸艾司西酞普兰10mg,每天1次,连续服用6个月,治疗前和治疗后4周、12周、24周PHQ-9、GSRS评分变化。结果 50例FGIDs患者经草酸艾司西酞普兰治疗后4周PHQ-9评分显著降低
期刊
风速是影响风力发电的关键因素。随着风力发电占总发电量比重的不断提高,风速的准确预测对电网的稳定运行起着至关重要的作用。目前基于人工智能的组合模型对于风速预测具有较高的预测精度,已经在风速预测中得到了广泛的应用。但是,当前基于机器学习新算法的组合预测模型在提升风速预测精度中仍然具有较大的潜力。本文基于典型的长短期记忆网络模型和回声状态网络模型分别提出了两种高精度风速预测模型。一种是运用目前已存在的模
学位
积滞、功能性腹痛、功能性便秘是小儿常见的功能性胃肠病,胡思源教授善洞察疾病因机实质,认为食积化热、气滞不行、津亏燥结在上述疾病的发生发展中占主导地位,并常根据主要病机确立治则,临证倡导“消食导滞,除热寓于和中”“调畅气机,临证分辨虚实”“增液润通,辅以行气消导”等原则分治三病,每获良效。附验案3则以佐证。
期刊
目的:考察地西泮或阿普唑仑联合常规药物治疗功能性胃肠病(FGID伴焦虑患者的临床效果。方法:选取2018年1月~2021年9月期间本院消化内科收治的130例FGID伴焦虑患者进行临床观察。按随机数字表法分为对照组和观察组,每组65例。对照组给予常规药物治疗,观察组在对照组治疗基础上加服地西泮或阿普唑仑。对比两组的治疗有效率、药物相关不良反应发生率及汉密尔顿焦虑量表(HAMA)评分。结果:观察组腹痛
期刊
近年来,为解决我国国有企业在较长的一段时间内面临着政策性负担较重、经营效率较低、业绩不佳等诸多问题,我国开展了国有企业混合所有制改革,同时促进国有资本保值增值、提高国有经济竞争力、放大国有资本功能,以推进国有企业更好发展。目前许多研究都已表明,国有企业进行混合所有制改革能够缓解“一股独大”等引起的代理问题,为国有企业带来许多方面的积极效应,同时此前许多研究发现由于国有企业存在的代理等问题使其存在较
学位
随着人口结构和生活方式的改变,近年来慢性病、亚健康逐渐成为威胁人类健康的突出问题,加之人们健康意识的不断提高,健康和医疗问题越来越受到人们的关注。同时,在经济“新常态”背景下,中共中央、国务院联合印发《“健康中国2030”规划纲要》,强调大力发展健康保障、健康产业,使其有望成为我国经济增长新动力。在“健康中国建设”战略背景下,我国商业健康保险和健康消费发展迅猛。商业健康保险作为我国医疗保障体系一部
学位
浙江是我国率先提出特色小镇概念的省份。特色小镇的发展类型一般有生态旅游型小镇、历史文化型小镇、特色产业型小镇、康养度假型小镇、新兴创意型小镇、运动休闲特色小镇等。自2014年特色小镇概念被提及起,截至2017年8月,全国已有403个特色小镇。为了给特色小镇的建设提供参考,分析了浙江省特色小镇的发展历程,指出了特色小镇在发展过程中存在的“服务或产品同质化、盲目跟风建设现象严重、缺少多元化发展元素”等
期刊