基于Adaptive Trans-StarGAN的非平行多对多语音转换方法

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:kevisno1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换是语音合成的一个重要发展分支,其目的是对源说话人的语音进行转换,使转换后的语音像是目标说话人说出来的,也就是保留原始语音的语义信息的同时又具有目标说话人的个性特征。从训练语料的类别来讲,语音转换方法可以分为平行的语音转换方法和非平行的语音转换方法,两者的区别在于非平行的语音转换方法不需要源说话人和目标说话人的说话内容保持一致,因此非平行的语音转换方法在实际生活中更有应用价值。近年来,随着深度学习的火热发展,各种各样的神经网络模型在语音转换领域进行了成功的实践,而星型生成对抗网络——StarGAN则是热门模型之一。评价语音转换方法性能的两个重要指标是自然度和说话人相似度,本文从改善这两个指标出发,对StarGAN模型进行分析和改进工作。为了解决StarGAN模型的多层卷积神经网络提取的语义表征不充分的问题,本文提出了基于Transitive StarGAN模型的语音转换方法。改进方案使用捷径连接的思想,在生成器的编解码网络之间建立联系,这种做法充分利用多层卷积网络中的多级特征,有助于加强生成器网络的语义学习能力,使生成的频谱具有更完整更真实的基频信息和谐波信息。实验结果证明,与基准方法相比,改进方案的转换语音的语谱图保留了更多的结构信息,更加自然清晰,生成器的损失曲线具有更快的收敛速度和更低的损失值,MOS得分提升了21.62%,ABX结果提升了3.90%,证明了该方案的模型具有良好的生成质量。StarGAN模型将说话人转换的任务看作域转换的任务,而在学习多对多说话人语音转换的映射关系时,对说话人个性特征的学习还不够充分。为了解决这个问题,本文在Transitive StarGAN模型的基础上进一步改进,提出了基于Adaptive Trans-StarGAN模型的语音转换方法。改进的方案使用说话人风格网络对目标说话人的语音提取说话人嵌入,并将该嵌入作为自适应实例归一化的风格特征,对编码网络的多层特征进行风格转换,从而提高生成器对说话人个性特征的学习能力。实验结果表明,改进方案的语谱图在纹理细节上更接近目标说话人,新模型的生成器仍具有较低的损失值,并且几乎没有增加计算负担,MOS得分提升了24.66%,ABX结果提升了6.65%,证明了该方案的模型不仅提升了语音质量,还能够有效地学习说话人个性特征。
其他文献
“荒诞”作为一种带有批判的哲学意识,出现在第二次世界大战之后。在后现代主义思潮中常被用来表述个体与世界的割裂关系,并且由荒诞主义文学逐渐延续到戏剧、电影等艺术手法中。虽然绘画中的荒诞内核并未被系统性归纳,但作为一种审美特征在早期中西方绘画中就有所体现。随着社会形态的改变和技术的革新,荒诞在绘画中的表现形式也逐渐多样。如今,图像的泛滥为艺术家提供了表达的契机,如何用绘画艺术这一形式抵抗碎片化的无效信
行人再识别,即行人检索,是一项利用机器学习算法从大量视频监控数据中检索给定行人的技术。向行人再识别系统中输入若干张行人图像,通过精心设计的算法搜索不同摄像头拍摄的相同行人。与行人跟踪、行人检测等计算机视觉技术相结合,行人再识别可以很好的解决大型摄像头网络的视域局限性,在智能视频分析、智慧公安、智能寻人等领域进行大范围应用。由于监控设备间往往具有一定的差异性,同时行人并不是一个固定的刚体,外观易受衣
人类文明至今从未脱离过符号,绘画符号被作为解读和构建绘画含义的重要工具,叙事作为符号学的一个重要分支,强调了符号与叙事两者之间的紧密联系,这使得绘画的叙事表达可以不必过多的依赖于繁琐的情节刻画,而是加强对于符号的运用。本论文先是从符号学和符号叙述学的角度分别简述了符号与叙事的定义,后结合绘画作品分析了绘画中的符号呈现和绘画中的叙事表达。利用符号叙事的相关概念分析绘画中符号与叙事之间的关系,结合对于
干旱地区由于水资源的缺乏,采用城市污水再利用的方式灌溉农田以缓解农业用水紧张问题,导致污水中的污染物如重金属进入土壤,造成农田耕地的污染。为了缓解污灌区重金属的污染问题,在采用潜在生态风险法(The Potential Ecological Rick Index,RI)对小店污灌区内的重金属污染情况进行评估的基础上,选取了太原市小店污灌区内长年生长的植物类型,结合功能菌,通过分析修复前后不同植物类
学位
现实世界中的许多复杂系统可以表示为网络,例如社交网络、生物分子网络等,网络分析对于理解复杂系统的内部机制具有重要意义。作为网络分析的重要内容,社区发现引起了各行业研究人员的广泛关注,如何提高社区发现的效率和准确度是一个巨大的挑战。网络嵌入方法可以学习网络顶点潜在的低维表示,并且保留网络结构、顶点特征等信息,已被广泛应用于社区发现任务,但是仍然存在社区数目未知、准确度有待进一步提高等问题。本文使用两
如今,随机数在算法、仿真与计算机科学等领域发挥着举足轻重的作用,所以如何生成高速率、性能优越的随机数成为了非常重要的科学问题。目前利用计算机产生的随机数,由给定的算法和种子确定。尽管输出的随机数序列能够通过各种随机性检测程序,但原则上该类随机数是可以被预测的,被称为是伪随机数。随着量子信息技术的发展,我们发现可以通过量子力学所具有的内在不确定性来生成量子随机数,这种方案被称为量子随机数发生器(Qu
在如今大多事物均以增长和效率为衡量尺度的商业社会,似乎只有在资本加持下的各式“点子”才能让艺术多少显得现代。但即便在这样的大环境中,还是有一群画家仍能以“才华”和“技艺”向世人显示:“任何人能做的任何东西,绘画都能做的更好”,同时抓住了“转瞬即逝”与“永恒不变”的伟恩·第伯与阿历克斯·卡茨显然位列其中。本文旨在以“消费文化”为切入点,论述两位画家职业生涯中存在涉及本文主题的相关绘画。论文主体章节从
5G已进入大规模商用化部署阶段,但5G无线网络规划设计在新频谱、新空口、新业务、新场景、新架构等方面仍存在巨大挑战。因此,基于以上背景,需强化对5G网络的规划研究,最终为5G实际商用部署提供理论依据。本文重点研究5G无线网络的规划设计理论,并应用规划设计理论对菏泽地区5G无线网络进行工程设计,最终分析测试结果表明所设计的5G无线网络可以达到建网目标。本文主要工作有:一、为深入探讨研究菏泽市5G无线
估值函数和回报函数是非完备信息博弈中的重要组成部分,估值函数对博弈中的不同策略进行评估,通过评估的结果来判断策略的优良。回报函数是对采取的策略获得的收益进行评估,通过评估的结果来判断系统是应该受到惩罚还是奖励。机器博弈主要任务就是运用深度学习,强化学习等算法来帮助智能体分析当前的局势和未来的局势,选择最佳的步骤。近些年来,机器博弈技术的发展已经能基本满足完备信息博弈中的技术要求,但是对非完备信息博