基于多语言建模的端到端语音合成研究

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:lich1234554321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来语音合成技术取得了较快发展,在单一语言上合成的语音已经具有非常高的可理解度和自然度。但是一旦提供给模型的文本包含来自非训练语言的词语,模型的性能便急剧下降,对这些词语的合成结果近似噪音。语码转换指的是在同一语篇中使用两种甚至2种以上的语言或语言变体的现象,在语音合成中实现语码转换的需求普遍存在。使用单语言模型来完成语码转换任务对训练集要求较高,然而这种带标注的多语言语料的获取存在困难,同时在完成语音克隆任务时,现有的单语言模型需要一个人说多种语言的训练数据,这种数据的获取在现实中同样存在困难。本文使用的多语言模型在Tacotron2模型基础上添加了参数生成器,修改了Tacotron2的编码器结构,添加了对抗说话人分类器,仅仅使用单语语料就可以很好地克隆一个人的声音,同时可以很好地完成语码转换任务。论文主要工作如下:(1)对音频中的静音片段进行了探索并提出了针对音频帧的拼接还原方案。在多语言实验中需要来自不同语言的语料同时参与训练,本实验使用的藏语语料是实验室在完成其它任务时录制的,这批语料在采样率、音频时长等方面与公开的语音合成语料CSS10(包含汉语、西班牙语、芬兰语、德语、匈牙利语、荷兰语、法语、希腊语、日语、俄语一共10种语言)有较大差距。首先本文对藏语语料中的语音进行了去静音处理,本文在VAD(Voice Activity Detection)的基础上对语音帧拼接逻辑进行了优化。然后对使用的全部样本(来自训练集中所有语言)的文本长度和对应音频时长做了统计,通过删除音频时长与均值相差较大的样本来剔除潜在存在问题的样本。(2)本文从实验和理论两个层面验证了在藏语中选用字母系列做为文本比选用音素系列效果好。本文在Tacotron2上通过实验证明对于藏语选用字母序列做文本,模型合成音频的质量比以音素序列做文本合成音频的质量好。(3)使用基于参数生成器的多语言模型完成了合成。本文使用的多语言模型以Tacotron2框架为基础,增加参数生成器模块使其能够完成多语言的合成。本文在编码器中使用参数生成器与局部共享的编码器,语言间的知识共享可以提升模型在目标语言上的合成效果。本文对多语言实验中的11种语言每种分别选取900个样本进行实验,然后对每种语言选取600个样本再次进行实验,实验结果表明在目标语言语料相同的情况下本文使用的多语言模型的合成效果远胜于单语言模型。(4)在多语言模型中使用基于域适应理论的对抗说话人分类器完成语音克隆与语码转换任务。在语音克隆任务中,本文在多语言模型基础上加入对抗说话人分类器,通过对抗性训练来逼迫模型学习与说话人无关的特征从而促进语言间知识的迁移,本文对数据集进行了扩充,本文在原来的数据集基础上加入了Common Voice数据集语音质量高的部分。对合成音频的评估表明本文使用的模型在这两个任务均取得了不错的效果。
其他文献
自我国资本市场建立以来,上市企业同时保持高货币资金和高额有息负债“存贷双高”的异象一直是一个普遍存在。从企业内部来看,存贷双高只是企业为满足流动性需要的一种资产配置及财务管理手段,并未引起学者们广泛关注,对此方面的研究也基本仅限于企业管理或财务管理等内部视角。但随着康美药业等存贷双高型企业发生股价崩盘,并引起整个股票市场波动,严重打击投资者信心,阻碍了我国资本市场的深化改革和有序发展。国内学者也将
学位
农村留守儿童是我国经济发展过程中衍生出来的一个弱势群体,其身心健康是国家和社会关注的重要议题。儿童的身心正处于逐渐成熟的过渡期,自我认知尚未完全形成,抵御危机的能力原本就弱,又因为农村留守儿童其自身的特殊性,更容易遭受心理创伤,故本研究以修复农村留守儿童的心理创伤为立足点,探究儿童心理创伤的成因与来源,采用文献法、访谈法、量表法收集资料,分析心理创伤服务对象小Z面临的心理困境,与心理创伤服务对象小
学位
聚类作为最重要的无监督方法之一,长期以来一直是模式识别和机器学习中的一项关键技术,它根据特定标准对数据样本进行分组,从而使同一组内的样本的相似性尽可能大,同时不在同一个组中的样本的差异性也尽可能大。随着互联网和通信技术的快速发展,真实世界的大多数数据都是从不同的来源生成,或者由各种特征采集器描述,这种数据被称为多视图数据。由于在划分无标签的多视图数据上具备优势,多视图聚类吸引了越来越多的关注。然而
学位
伴随着我国城市化和老龄化进程的加快,2022年开始我国老年人口正式进入高速增长时期,越来越多的老年人随着儿女移居到新的城市新的社区,在此背景下衍生出新的社会群体“老漂族”。“老漂族”随儿女离开原有的生活环境,由于年龄、认知、身体、心理等诸多原因,在融入新生活的过程中面临许多困境。社区是“老漂族”融入新环境的第一站,社会工作者通过帮助“老漂族”进行社区融入,使他们在社会角色和生活环境变化时期,自身也
学位
随着计算机技术的高速发展,大数据分析和各行各业密切结合到一起,庞大的信息资源不仅给我们的社会与生活带来诸多的便利,也带来了如何集成以及高效使用这些数据的问题。档案领域是受到信息化发展影响比较深远的行业,随着科学技术的进步,传统档案管理模式已经不能满足档案用户利用的需求。如何进行档案信息资源的整合和资源共享,并向档案使用者提供智能化、个性化的档案知识服务,从而提高用户使用档案的体验,已经成为档案信息
学位
人口老龄化趋势日益严峻,养老问题是每个家庭所关心的“家事。受到不断加快的人口老龄化进程的影响,我国的家庭结构发生了根本性的改变,家庭规模持续小型化、传统的家庭照料功能不断减弱,加之现如今物质生活水平的提高,人均预期寿命得到了延长,老年人在日常照料、医疗救助和精神关怀等方面的需求不断增长。目前我国现存三种养老方式:居家养老、社区养老和机构养老。家庭养老是老人子女为老人提供生活上的服务,但是随着家庭养
学位
文本相似性度量用来表示文本的语义相似度大小。近年来科学论文数量剧增,科学论文具有很强的针对性、严谨性、段落长、高度程序化等特性,语句结构复杂严谨,包含了丰富的领域知识,专业性极强。论文的摘要部分凝结了主要研究的方法理论、技术、研究过程等信息内容,能表达科学论文主要的研究内容信息,为研究人员高效地、快速地获取有用的内容提供方向。本文以科学论文的摘要为对象,进行文本相似度计算研究。本文以新冠领域科学论
学位
随着社会的不断发展,人们的思想在发生转变,在刑罚领域,人道主义的呼声日渐高涨。人类刑罚制度经历了报复刑、威慑刑再过渡到教育刑的时期,体现出刑罚制度的人性化。在这过程中,社区矫正这一在欧美国家兴起与发展的制度在中国也逐渐发展起来。广西壮族自治区近年来深入推进社区矫正机制改革,建成社区矫正中心并且挂牌成立社区矫正教育基地,通过政府购买社会服务的方式引进了一大批专业化、职业化的社会工作者,专门负责对接社
学位
阅读网络小说作为人们的消遣方式之一,是很多人闲暇时愉悦身心的选择。一本小说需要塑造很多不同角色来推动故事情节的发展,但网络小说篇幅较长,阅读耗时较多,读者记忆不深刻,前后文衔接不上,影响阅读观感。如何应用深度学习技术将其复杂的文本结构转化为清晰明确的结构化信息是本文的主要研究内容。针对以上问题提出命名实体识别模型以及关系抽取模型,更进一步将二者联合建模,解决实体冗余、关系重叠等问题,从而实现网络小
学位
近年来,语言模型取得了巨大成功,然而其本身还是缺乏常识知识建模的能力,这阻碍了其在实际应用场景的大规模推广。知识已被证明能为模型提供更全面丰富的语言建模能力。通过多维度常识和领域知识,增强模型的鲁棒性。句法分析能力作为模型必不可少的基础能力,其重要性毋庸置疑。现已有多项研究工作尝试对模型进行句法增强以提升效果。但其大多数需引入单独的句法模块或只能应用在特定任务上,这无疑增加了模型的计算复杂性和应用
学位