融合说话人嵌入和SE-ResNet的非平行多对多语音转换研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:cao678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号中除了包含语义信息,还包含丰富的说话人身份和情感状态等信息。语音转换属于个性化语音生成的一个重要研究方向,旨在保持源语音语义信息不变,改变说话人的个性特征,使其具有目标语音的个性特征。语音转换在受损语音修复、影视配音、伪装/反伪装等领域有着广阔的应用前景。根据训练过程对语料的要求,可将语音转换划分为平行文本和非平行文本条件下的语音转换,在实际应用中,预先获取大量平行训练文本,不仅耗时耗力,而且在跨语种和医疗辅助系统中往往无法获取到平行文本,严重制约了语音转换在实际场景中的应用。因此,非平行文本下的语音转换研究具有更大的应用前景和现实意义,同时具有很大的挑战性,成为当前语音转换领域的研究热点与难点。一个理想的语音转换模型,既要保证转换后的目标说话人个性特征的准确性,同时又要兼顾转换后合成语音的音质。当前的语音转换,尤其是非平行文本条件下的语音转换,仍存在转换后的语音音质不理想和说话人个性相似度不高两大问题。鉴于此,本文基于星型生成对抗网络StarGAN的语音转换模型进行研究,针对上述两方面的问题进行了相应的探讨与改进工作。首先,为了提升转换语音的说话人个性相似度,本文提出融合x-vector嵌入的StarAGN语音转换方法。由于StarAGN模型通过传统编码中的one-hot来表征说话人身份,对转换语音的个性相似度提升有限。因此,本文在StarGAN模型的生成器解码阶段,引入含有丰富说话人个性信息的x-vector特征,与ont-hot标签互为辅助,前者为语音的合成提供丰富的说话人信息,后者作为精准的标签能准确区分不同说话人,两者相辅相成有效提升转换后语音的个性相似度,进一步实现高质量的语音转换。充分的主客观实验结果表明,转换后的语音平均MCD值较基准模型降低5.41%,MOS值提升6.64%,ABX值提升5.12%,验证了本文提出的方法能够显著提升说话人个性相似度,同时有助于改善合成语音的音质。其次,为了进一步改善转换后合成语音音质,本文提出一种基于SE-ResNet StarGAN的语音转换模型,针对基准模型StarGAN中存在的网络退化等问题,在生成器的编码和解码网络之间构建SE-ResNet网络,利用其引入注意力思想和门控机制对各通道的依赖性进行建模,通过全局信息学习每个特征通道的权重,并对特征进行逐通道调整,有选择性地加强包含有用信息的特征并抑制无用特征,从而进一步增强模型的表征能力,更好地提升模型对语音频谱的语义学习能力以及语音频谱的合成能力。充分的主客观实验结果表明,相比于基准模型,本文提出的方法转换后的语音的平均MCD值降低7.82%,平均MOS提升11.89%,平均ABX提升3.35%,验证了本文提出的方法能够有效地改善语音音质,同时也有助于提高转换语音的个性相似度。进一步,本文还将x-vector融入到上述改进模型中,即将两个改进点结合在一起,提出了SE-R StarGAN-x的语音转换模型,充分的主客观实验结果表明,转换后的语音较基准模型平均MCD值降低9.53%,MOS值提升19.58%,ABX值提升8.66%,验证了本文提出的方法在语音音质和说话人个性相似度方面均有显著的提升,实现了非平行文本条件下高质量的多对多语音转换。
其他文献
伴随海绵城市建设进程加快,北方地区海绵设施数量逐渐增加,其中,生物滞留池是海绵城市建设设施中应用最广泛的技术之一,但北方冬季常施用融雪剂使得海绵城市设施受到盐渍化威
高中教育的目标越来越强调学生素质教育,作为一线教育工作者,促进学生全面发展是我们的使命,我们必须不断探索科学有效并且符合时代发展的教学模式。在实际的物理教学过程中,
当可见卫星数低于4颗时,惯性/卫星松组合方式不能正常工作,紧组合方式虽能工作但当载体出现频繁的大角度转向时,导航误差易出现较大波动,特别是姿态角误差在长时间导航时出现发散的情况。针对上述问题,对比了当载体在频繁转向时,不同的紧组合观测信息对系统导航误差的影响,提出基于多模型的自适应姿态估计方法。设计模糊逻辑推理,智能判断载体的运动状态,自适应分配对应姿态估计的权重,从而提高MIMU/GPS组合导航
随着互联网大数据的发展,传统影视行业也受到了巨大影响,以新兴的“边播边拍”电视剧和针对市场的商业电影为代表,影视剧的制作和传播逐渐向面向观众和个性化定制的模式转变
期刊
在辽宁稻区,以主栽的直立穗型高产粳稻品种与日本引进的弯曲穗型优质米品种杂交创制高产优质相结合的育种新材料是当地育种者广泛采用的一种主要育种方法。本研究以辽宁稻区典型的直立穗型品种辽粳5号与日本典型的优质米品种秋田小町杂交构建的重组自交系群体(以下简称RIL群体)为试材,采用辽宁稻区高产栽培的施肥模式(高氮肥)和日本优质米栽培的施肥模式(低氮肥)种植,调查两种不同施肥模式下RIL群体茎秆维管束和产量
本文通过对有关荒岛文学的作品文本以及相关论文、期刊、著作等资料的查阅基础上,尝试将中英两国的荒岛文学进行比较研究。第一章为中英荒岛文学创作概述。分为两个小节,分别是创作成因和发展现状。“海洋文明”与“大陆文明”带给两国荒岛文学不同的影响。英国的地理环境导致了英国的荒岛文学数量较多,中国的地理环境对荒岛文学中的荒岛形式有着一定影响。其次,不同的民族性导致中英两国荒岛文学的成因差异,即“殖民史的扩张”
目的对北京市大兴区19家社区卫生服务中心进行调研,了解其健康教育工作现状。方法采用定量(问卷调查)和定性(现场观察、个案访谈、小组座谈)相结合的方法进行调研。结果共调研50
本文主要从两个方面对新课改下的初中数学课课堂教学进行分析和阐述:转变思维方式,更新思考角度;做好课前备课,力求完善各个细节。”