基于自编码器的端到端语音转换研究

来源 :王超 | 被引量 : 0次 | 上传用户:realmummy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能语音交互技术的蓬勃发展,非平行语料语音转换在学术界和工业界的研究热度越来越高,其中基于自编码器的端到端语音转换模型由于其较好的效果,逐渐成为该方向的主流模型。基于自编码器的端到端语音转换模型包含一个编码器和解码器,其中编码器负责将语义特征和源说话人特征解耦分开,解码器负责将语义特征与目标说话人特征相融合并生成转换语音。但目前主流的自编码器端到端语音转换模型由于无法平衡好解耦音色特征与保留语义信息的问题,从而导致语音转换效果仍然较差。为了解决这一问题,本文提出两种改进的基于自编码器的端到端语音转换模型来提升现有模型的语音转换效果。首先,提出一种基于多任务学习的矢量量化正则变分自编码器语音转换模型,通过多任务学习机制将矢量量化模块退化为正则化项,使其仅在训练中出现,从而在剥离音色信息的同时尽可能保留有用的语义信息,提升最终语音转换的效果。提出的模型与目前主流的语音转换模型进行了对比实验,验证了该模型可以大幅度地提升转换语音的音质,同时消融实验也验证了多任务学习机制的有效性。为了进一步提升语音转换的效果,本文继续提出一种基于注意力机制的码本索引自编码器语音转换模型,该模型完全摒弃使用矢量量化模块,取而代之的是使用多头注意力机制来构建编码器输出与码本矢量之间的索引关系,由于注意力机制是可微分的,因此整个模型可以端到端地进行训练优化,从而收敛结果更具有鲁棒性。主客观实验都验证了提出的模型可以进一步提升转换语音的音质。
其他文献
人民群众日益增长的美好生活需要和不平衡不充分的发展之间的矛盾日益增长,在学前教育领域的表现是,越来越多的大众对优质园所的需求日益增长。由此催生了一批国际幼儿园在苏城大地诞生。这些幼儿园普遍以“高昂学费”、“特色教育”、“国际化”……等吸引生源。本文以S国际学校集团下幼儿园为缩影,旨在探索当前国际幼儿园教育质量、其与公办优质园在教育质量领域相同与特殊之处,并在此基础上,探索国际幼儿园质量提升路径。本
学位
游戏是体育课堂教学中重要的教学形式,小学生处于成长的初级阶段,比较活泼好动,对这个世界有无尽的好奇心。而游戏教学是将游戏融入进体育中,与小学生的胜利发展特征一致,对于调动学生的积极性有着非常大的作用。本文将对大数据下体育游戏在小学体育教学中的作用进行分析,并提出自己的建议和看法,以提高小学生的运动积极性和体育教学的效率。
期刊
近年来,随着互联网科技的发展,大量信息以视频、文本、语音等不同的形式展现在人们面前,如何有效地分析并利用这些信息逐渐成为多模态领域较为热门的一个研究问题。而作为多模态领域最关键的技术之一,多模态联合表示技术受到了广泛的关注。正确合适的多模态联合表示能够联合利用不同模态之间的互补性和一致性得到更好的特征表示,为下游任务提供更精确的帮助,这对于多模态分类、多模态匹配以及多模态检索等任务有着极为重要的基
学位
量子网络编码是一种利用网络中的中间节点对信息进行编码用以提高网络吞吐量的通信方法。随着量子通信技术的快速发展,为了提高通信流量,不少研究者提出了各种量子网络编码方法。本文主要基于量子网络编码量子通信提出了若干新型双向量子通信方法。(1)为了应对复杂的网络环境,提出了一种基于蝶形网络编码的双向混合信息传输方案。该方案首次采用隐形传态和远程态制备技术实现了基于蝶形网络模型的多方信息同时传送。该方案能有
学位
随着信息大爆炸时代的到来,数据中心网络的规模也不断扩大,服务器发生故障已经成为一件不可避免的事情。因此,确保数据中心网络中服务器间的可靠通信具有重要意义。数据中心网络HSDC以著名网络超立方体为基础拓扑结构进行构建,保留了超立方体网络许多优秀的性质,例如正则性、点对称性等。此外,数据中心网络HSDC还拥有超立方体网络所不具备的优点,例如HSDC在增量可扩展性方面具有很好的性能。作为一个具有高可扩展
学位
本报告以造就talk上发布的一篇中文演讲作为模拟口译的材料,标题名为《设计事理学的思维逻辑——“中国方案”中国设计践行的方向》。这篇演讲的演讲人是柳冠中。他是清华大学美术学院责任教授、博士生导师,以及著名的工业设计学术带头人。笔者以这篇演讲为例,进行了模拟交替传译,并在分析整个翻译的基础上完成了此篇口译报告。本实践报告以吉尔的精力分配模式为基础,分析了 口译过程中的困难和技巧。如句子成分缺省,语序
学位
随着无线通信技术的发展,列车的通信和数据业务也随之增加,基于4G标准的LTE-R系统也将全面导入列车系统。列车车顶的空间有限,增加更多列车通信频段给列车天线的设计提出了新的挑战。如何考虑在实际列车车顶空间有限条件下设计和规划多频段多天线的合理布局对于列车通信的发展具有十分重要的现实意义。当前解决此问题的主要策略有多频段组合和宽频段组合两种方式,本文将着重研究设计合理的宽频段天线并将其有机组合问题。
学位
随着铁路及公路基础建设的快速发展,如何利用公共移动网络实现在建铁路和公路隧道信号的及时跟进覆盖,已成为工程界普遍关注的问题。由于在建工程无线通信需求具有临时性和及时性的特点,所需通信天线应具备结构紧凑、可移动以及信号覆盖好等性能,可以说天线类型的选取及在建隧道电波覆盖的特性从根本上决定着其中无线通信的质量和可靠性。因此,针对性的研究隧道环境中的电波覆盖特性,并据此设计相关隧道通信天线具有十分重要的
学位
新一轮课程改革倡导教师在教材使用过程中凸显“创造性”,教材观随之发生改变,教师教学开始从“教教材”向“用教材教”转变。《企业经营管理认知》课程标准也明确指出,教师在教学过程中能够结合实际教学需要、教学情景以及学生个体发展的实际需要对教材进行灵活化、创造性处理,合理对教材进行二次开发,充分发挥教材的最大效益,以此对教师教学以及学生学习起到促进作用。本研究从中职金融事务专业教材二次开发概念入手,初步拟
学位
职业教育高质量发展的国家战略以及新经济时代社会对市场营销人才的新要求迫切需要中职实训教学实施改革,以便使其培养的人才能够更好地适应岗位需求和自身的可持续发展。目标与关键结果法(OKR)是一套明确和跟踪目标及其完成情况的管理工具和方法,它具有聚焦核心目标、关键结果支撑目标、目标拟定的自主性、目标与关键结果公开透明、及时反馈和调整的特点,由于这些特点因而可以较好地切合市场营销课程的实训教学。本研究采用
学位