基于特征分离的任意说话人语音转换算法设计与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：baslove

【摘要】

：

语音转换(Voice Conversion,VC)技术作为语音识别和语音合成的分支,在文本转语音、影视业、信息安全、语音翻译等中具有重要的作用。近年来,深度学习和神经网络方法的不断革

【作者】

：

陈莹

【出处】

：

华南理工大学

【发表日期】

：

2004年期

【关键词】

：

任意说话人(一键)语音转换说话人确认说话人表示内容表示特征分离递进训练

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音转换(Voice Conversion,VC)技术作为语音识别和语音合成的分支,在文本转语音、影视业、信息安全、语音翻译等中具有重要的作用。近年来,深度学习和神经网络方法的不断革新更加推动了语音转换研究的迅速发展和热潮。语音转换技术是一种在不改变源说话人(Source Speaker)语音内容的情况下,将源说话人语音转换成目标说话人(Target Speaker)语音的方法。目前的语音转换技术存下以下问题:(1)目前大多数语音转换算法只适用于一些限定的说话人之间,不能实现任意说话人之间的语音转换,使用场景受到了很大程度的约束;(2)目前主流技术对源说话人语音和目标说话人语音进行特征分离时,分离效果不理想;(3)目前大多数模型转换后的语音音质还存在一些问题,语音转换质量有待提高。针对问题(1),本文构建了基于特征分离的Encoder-Decoder结构的语音转换模型。Encoder由两部分组成:说话人编码器(Speaker Encoder)和内容编码器(Content Encoder)。说话人编码器从目标说话人语音中分离出目标说话人特征,生成带有目标说话人音色的表示,称为说话人表示或特征(Speaker Representations);内容编码器从源说话人语音中分离出内容特征,生成含有源说话人语音内容的表示,称为内容表示或特征(Content Representations),Decoder即解码器将说话人表示和内容表示合成,生成带有源说话人语音内容的目标说话人语音。本文语音转换模型只需要输入任意的源说话人语音和目标说话人语音就可以实现任意两个说话人之间的语音转换,亦称为一键(one-shot)语音转换。针对问题(2),本文对基础的说话人确认模型进行优化,得到优化后的说话人确认模型SVINGE2E(Speaker Verification with Instance Normalization using Generalized Endto-End loss),SVINGE2E模型相比基础的说话人确认模型最高提升了41.72%。将训练后的SVINGE2E作为语音转换模型中的说话人编码器,此说话人编码器可以有效的提取说话人的音色信息。在语音转换模型训练中,优化内容编码器将双向LSTM作为信息过滤器并使用内容损失函数优化内容编码器,使得内容编码器能有效的去除语音中的源说话人信息,提取源说话人语音中的内容信息。针对问题(3),为了提高生成的语音质量,在训练语音转换模型时,提出递进训练法。第一步将重构损失函数作为模型损失函数,训练模型重建语音频谱的能力。第二步将重构损失函数和内容损失函数作为模型损失函数,模型在重建语音频谱的同时,优化内容编码器。实验表明递进训练法生成的语音音质更好。通过上述改进,本文构建并实现了基于特征分离的任意说话人语音转换算法。实验结果验证了本文算法的有效性,转换效果达到了较好的水平。

其他文献

功能分工对城市群效率的影响研究

中国城市化已经进入到城市群发展阶段,如果说城市主要强调集聚效率,那么城市群就必须在集聚效率基础上进一步追求分工效率。但是,中国城市分工尚未能完全摆脱行政干预的扭曲,

学位

功能分工DEA-Malmquist模型城市群效率技术进步

马克思主义大众化视域下“寸铁”栏目研究

大革命时期创办的《前锋》月刊、《向导》周报和《中国青年》是中共早期重要理论刊物,三种期刊中共同设置的“寸铁”栏目是大革命时期中国共产党向党员和民众宣传马克思主义

学位

大革命时期“寸铁”栏目早期马克思主义大众

相位型软边光阑的设计与工艺研究

ICF(惯性约束聚变)是目前解决能源问题较有前景的一种方法,它以激光为驱动源,将激光传输放大,对激光光束的质量要求十分严格。传输过程中的菲涅尔衍射调制产生的强度扰动会导

学位

软边光阑超高斯填充因子相位型衍射光学元件对准曝光

充水保压蜗壳结构温度场仿真分析

混凝土内部温度场和温度应力场的分析研究是一项复杂的工程,一直都是建筑界关注的重点之一。如今,水电行业迅猛发展,蜗壳外围混凝土体积越来越庞大,在其施工过程中,浇筑并不是一次完成,而是根据实际情况确定不同的厚度混凝土再进行分层浇筑。在浇筑前期,水泥水化热作用释放出大量热量,混凝土外表面与外界空气进行热对流散失热量,混凝土内部会产生复杂的温度场,由于温差形成的应力场会造成结构的开裂,对工程的安全性能和使

学位

温度场温度应力场分层浇筑水化热温控措施

视觉图像的长尾识别算法研究

现实世界中,大规模图像数据集通常呈现长尾分布现象,少数类别含有大量的样本,大多数类别仅有极少量样本。传统的视觉识别方法应用到长尾分布的图像数据集时,会出现模型失效、

学位

长尾识别不平衡学习小样本学习注意力机制知识蒸馏

森林生态补偿法律制度研究

面对日趋严重的森林生态问题,国家出于公众生态利益的考虑,将部分商品林区划分为公益林,禁止滥砍滥伐,以求实现森林的生态价值。这一政策在保护森林资源的同时却损害了原商品

学位

森林公益林生态补偿制度

新市民家庭人口结构对保障性住房需求的影响研究

党的十九大报告提出,要坚持以人民为中心的发展思想,坚持房子是用来住的、不是用来炒的定位,正确处理住房经济属性和民生属性的关系,同时要把民生属性摆在更加突出的位置,建

学位

新市民家庭人口结构住房保障无序多分类Logistic模型

Z市防贫保险政策可持续性指标体系构建及应用

2017年下半年,国家针对深度贫困地区如何进一步脱贫攻坚出台了新的实施意见,按照该实施意见的指示精神,全国深度贫困地区的脱贫攻坚工作如火如荼地开展起来。经过一段时间的

学位

Z市防贫保险政策可持续性评价

镍基磷化物复合催化剂的制备及其催化电解水性能研究

电解水制氢技术具有环保、过程简单、无副反应、副产物生产等优点,被认为是进行工业化制氢的理想选择之一。但是,由于阳极、阴极和其它因素所引起的过电势的存在,严重地降低

学位

镍基磷化物过渡金属析氢反应析氧反应电催化剂

Ru基贵金属纳米材料的合成及其电化学性能研究

本文通过用热还原金属前驱体的方法,成功制备了Ru基纳米材料,并分别应用于碱性析氢反应（HER）和氮气还原反应（NRR）,主要探索内容如下:（1）电催化HER的发展如火如荼,但如何既能降低成

学位

电催化Ru析氢反应氮气还原合金

基于特征分离的任意说话人语音转换算法设计与实现

其他学术论文