基于端到端的多说话人中英混读语音合成

来源 :天津大学 | 被引量 : 0次 | 上传用户：reddhong

【摘要】

：

【作者】

：

郭少彤

【机构】

：

天津大学

【出处】

：

天津大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音合成（Text-to-Speech,TTS）是一种将输入文本转换为合成语音的技术。在人机交互场景中,语音合成作为交互链条中最后一步,具有举足轻重的地位。目前随着端到端技术的提出和日趋成熟,单语种单说话人语音合成系统,已经能够合成与人类发音具有相似自然度的语音,但是在实际应用场景中,单语单说话人语音合成系统已经无法满足人们的日常需求。比如在导航系统中出现的含有英文单词的地址,日常交流中出现的英文短语等等,因此就要求语音合成系统满足上述需求,具有合成两种语言的同时,可以适应实际场景中的个性化需求,合成不同音色语音的能力。本文针对多说话人混读语音合成,主要完成了以下工作:首先,由于双语语料库录制成本巨大且不易获取,单语语料库训练多语言合成系统易出现训练集与测试集不匹配的问题,本文构建了用于混读合成系统的低语言混合度（Language Mix Ratio,LMR）混读语料库。考虑到专业双语录音人不易得、录音成本高昂,在语料准备上,本文选择采用低LMR的文本,构建了由三个中文母语说话人录制的非平衡混读语料库,降低了成本和对录音的要求,并完成了语料库的标注。为了降低录音难度,每个语料库中仅含有15%-24%的混读句子,每个混读句子仅含有1到2个简单英文单词。其次,本文基于构建的低语言混合度混读语料库,实现了单说话人混读语音合成系统。考虑到语料库不同语种音素数量的不平衡性和保持音色一致性的要求,为了弥补不同语种之间使用相同表示形式难以共享发音特征的缺陷,本文深入研究了一种使用混合文本表示的混读输入表示形式,针对中文和英文分别使用不同的文本表示,实现了单说话人混读合成,MOS评分在4.0以上。同时本文实现了一种可以处理混读文本并输出混合表示的语音合成前端处理系统。最后,通过使用语种标记显式地引入语种信息以及语种转换点信息,并从声学特征中提取发音信息、韵律信息等,进一步提升了混读合成系统合成语音在语种转换点出的自然度。声学特征中除了发音信息等,还包含了说话人音色等丰富的个性化信息,通过提取这些个性化信息,本文实现了多说话人混读语音合成。

其他文献

基于双注意力机制的口语理解研究

口语理解是对话系统中的重要组成部分,负责将用户输入的文字信息转换成计算机所能理解的结构化语义信息。在本研究中,主要围绕对话行为识别、意图理解和槽填充三个子任务展开,以双注意力机制为基础解决目前子任务中存在的问题。双注意力机制主要包括两个注意力编码分支结构,通过对双分支进行联合训练获取额外的句子特征,能够有效利用和交换双分支结构中特征信息,提高模型鲁棒性。首先,对话行为识别任务中数据不平衡问题比较突

学位

基于多阶社交传染性和标签一致性的社交媒体摘要研究

随着移动互联网技术的全面发展,社交媒体（例如:微博、Twitter、抖音等）依靠其独有的便捷性和服务已经成为促进人与人交流,获取和传播新闻资讯,分享意见和观点的重要平台。然而当热点事件发生时,数百万的用户短时间内会产生大量嘈杂简短的信息,因此如何从社交媒体数据中快速获取想要的内容至关重要,对社交舆情监控、危机预警具有重要意义。旨在从特定事件找到一组代表性帖子,生成简洁的摘要,以揭示给定热点事件中大

学位

大气中活性气态汞的光致还原反应过程及臭氧的影响分析

汞及其化合物具有强烈的神经毒性,可以通过水生食物链富集,对高营养级水生生物和人类健康产生威胁。在全球汞循环中,大气是最重要的传输途径。大气中汞的存在形式有气态元素汞（Gaseous Elemental Mercury,GEM）、活性气态汞（Reactive Gaseous Mercury,RGM）和颗粒态汞（Particle-bound Mercury,PBM）。不同形态的汞具有不同的物理化学性质

学位

滨海重盐碱地区重金属污染土壤钝化修复效果及评价

沿海地区经济的快速发展,使得土地资源的需求量不断增加。但随着工业的发展,滨海盐碱地区土壤重金属污染现象日益严重,这不仅降低了土地利用率,对城市环境也会产生不良影响。因此滨海重盐碱地区重金属的污染修复受到了广泛的关注,其中存在的盐碱成分又使得重金属的修复更具难度。根据研究发现,重金属的原位修复方法中,化学钝化方法以其便利性和实用性受到广泛应用。本文在实验室已有研究的基础上,探究新型重金属钝化剂——水

学位

基于隐表示的缺失多视图学习研究

尽管在过去的发展历程中,多视图学习领域取得了很大进步,但是由于很难对不同视图之间的复杂关联进行建模,这个问题仍然十分具有挑战性,尤其是在视图有缺失的情况下。为了应对这一挑战,本文提出了一个新颖的模型框架,旨在充分地、灵活地利用具有不同缺失模式的各个视图的数据。本文首先为多视图表示提供完备性和通用性的正式定义,然后从理论上证明了所学习的隐空间表示的通用性。对于完备性,通过模仿数据的信道传输理论,将学

学位

视频问答的时序视觉内容定位方法研究

计算机视觉和自然语言处理是两个非常热门的研究方向,其中包括图像或视频的分类、检测、分割等视觉任务或是机器翻译、文本摘要、问答系统等自然语言任务,这些任务目前已有很多基于深度神经网络的模型。现实生活中,大部分时刻需要同时理解视觉和自然语言信息,因此,目前在两个领域结合的方向,涌现了很多新的任务:如视觉描述生成、文本图像生成等内容。这其中,视频问答任务近几年取得了飞速的发展,它要求模型输入视觉信息和问

学位

基于语义的RDF图划分关键技术研究

由于RDF图数据的急剧增长,传统的集中式数据处理已经不能满足当前需求,必须通过分布式集群来存储和处理大规模RDF图数据。RDF图数据的分布式存储面临的第一个问题即是RDF图划分。这就使得如何有效地划分大规模RDF图变得尤为重要。本文对现有的RDF图划分算法进行整理,将图划分算法分为3种类型,分别是多级图划分算法、流式图划分算法和分布式图划分算法,详细描述了其中的代表性算法。通过在合成数据集与真实数

学位

基于深度度量学习的半监督小样本分类研究

目前深度学习已经在多个领域中获得了令人瞩目的成就,但深度学习的成功往往依赖于大规模有标注的数据集,这不仅限制了其在特定领域的应用,也与人类能够从少量样本中快速建立概念有较大差距。小样本分类旨在通过少量有标注样本学习出有效的模型,能够对新类进行识别。而半监督条件下的小样本分类则是对当前小样本研究的进一步拓展,半监督条件一方面更加贴近人类对于事物类别的认知方式,另一方面在实际应用中无标记的数据的收集往

学位

天文图像数据时序子图检索方法和系统

随着天文观测数据的日益丰富,天文学研究已经进入大数据时代。随着光学望远镜制造技术不断发展,高分辨率和宽视场的天文光学观测图像数据持续增速积累。对于时域天文学研究,天文学家通常关注于某一片天空区域内发生的变化或者某一个星体自身发生的变化,并不需要处理所有的归档图像数据,因此如何保证能够快速从海量的归档数据中检索出天文学家所需要的图像序列是一个亟待解决的挑战。本文面向基于光学图像数据的时域天文学研究,

学位

基于铱星通信的天文观测数据传输方法与系统

天文观测对大气环境质量、防信号干扰能力等方面的要求非常高,因此,观测条件越好的地点越是人迹罕至。由于观测地点长期无人值守,在观测站点部署高可靠、低成本的远程数据传输系统非常有必要。例如,南极昆仑站天文观测现场与国内数据中心之间只能依靠铱星通信系统进行数据传输。然而,铱星通信网络的带宽极为有限,并且相当不稳定,流量成本也非常昂贵。因此,常规的数据传输工具,例如rsync和scp,并不适用于这种传输场

学位

基于端到端的多说话人中英混读语音合成

与本文相关的学术论文