一种新的Lipschitz生成对抗网络及其在语音转换中的应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:SURE181709394
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从生成对抗网络诞生以来,众多学者就从其模型结构和损失函数两方面提出许多改进方案,使得生成对抗网络在各种计算机视觉任务中都取得了很好的效果。尽管如此,如何稳定生成对抗网络的训练过程和提高生成样本的质量仍然是一个具有挑战性的研究问题,另一方面,加强探索生成对抗网络在不同领域、不同任务上的应用(如语音转换)也是一个值得深入研究的问题。本文针对基于Wasserstein距离的生成对抗网络存在的问题:模型训练稳定性和生成样本质量仍有待提高、过度限制判别网络的性能等,提出了一种新的严格符合Lipschitz连续的生成对抗网络,并通过图像生成任务和将其拓展并应用于语音转换任务中去分析模型的有效性。本文主要研究成果如下:1、提出了一种基于谱界定算法的生成对抗网络(命名为SBGAN),该算法将矩阵1范数与无穷范数的乘积的平方根作为判别器参数矩阵的谱范数的一个上界,从而使得判别网络函数严格满足优化Wasserstein距离函数所需的Lipschitz连续条件。实验结果显示,与梯度惩罚、谱归一化算法相比,谱界定算法能进一步改善模型训练的稳定性和提供一个更为合理的参数限制空间。2、为了验证SBGAN模型的有效性,提出了一个基于SBGAN的图像生成框架,该框架采用与基准模型(WGAN-GP和SNGAN)完全一致的网络结构和损失函数设计。实验表明,SBGAN模型在CIFAR-10和ImageNet数据集上都取得了最佳的生成图像质量评价指标(Inception Score)结果。3、为了进一步验证SBGAN模型的有效性以及解决现有语音转换模型存在的问题,提出了一个基于SBGAN的语音转换框架,该框架利用STRAIGHT模型对语音信号进行分析和重构,并结合门控线性单元和残差学习技术去精心设计了一种基于编码器-解码器结构的频谱转换网络。实验结果表明,SBGAN模型在说话人和情感语音转换任务上都能有效提升转换频谱的质量,而且在客观评价指标(梅尔倒谱失真度)和主观评价指标(平均意见分)上也是优于其它对比模型。
其他文献
近年来,随着各种涉税违法案件的曝光,暴露了我国很多公司对税务风险管理的认识不足。就近期的2018年出口退(免)税专项检查工作来看,省局抽查的有疑点的出口企业当中,生产型出口企业户数占比超过半数。由此看出,在当今激烈的市场竞争环境下,研究生产型出口企业税务风险管理可以使此类企业在出口贸易竞争中突出优势,减少经济与名誉的损失。本文也将围绕这一主题进行深入的探讨,并借助案例开展研究。尽管学术界关于企业防
冶金法是利用杂质物理化学性质的不同对工业硅(MG-Si)逐步提纯。工业硅中的Fe、Al、Ca等金属杂质聚集在硅料的晶界或者缺陷处,利用湿法提纯可以将它们有效去除;而对均匀分布在硅晶格中的非金属杂质B和P则去除效果不佳。合金精炼是一项新兴的冶金法除杂工艺,它能显著减少能耗、改变杂质的聚集状态。本论文将合金精炼与湿法提纯结合,分别以钒(V)和锡(Sn)作为工业硅与硅铜合金的杂质吸附剂,改变杂质分布状态
共益公司是公司谋求商业利益与社会责任之间产生的一种特殊的公司组织形式,其公司使命不仅包括传统的营利本位,更涵盖公益目的、自我披露公益报告书等非营利的向善追求。共益公司作为一种商业向善的实践,不仅能够创新我国公司的形式,更为企业有效承担社会责任寻找一条新的途径。并且如果共益公司获得立法的制度支持,可以有效防止公司实施的名为公益,实则是敛财的欺诈行为。本文共分为四个部分,第一部分是共益公司的内涵分析,
碳基载体具有导电性好、比表面积大等优点,被广泛应用在燃料电池等电催化体系中。然而在电化学循环过程中,负载的贵金属纳米粒子会催化加速碳载体的腐蚀,导致催化性能迅速衰减。因此研究高效廉价、稳定性优异的催化剂载体对于燃料电池和电解水制氢等能量转换装置的长期稳定运行来说具有重要意义。本论文选择具有优异稳定性的二氧化钛作为碳基载体的替代品,采取掺杂、复合等方法解决二氧化钛导电性差的问题,通过负载贵金属催化剂
工业生产过程中工件难免会产生缺陷。为避免传统人工检测效率低下的问题,基于机器视觉的自动缺陷检测广泛应用于工业领域,而机器视觉的检测任务要求采集图像具有高分辨率且处理能达到实时。同时,近年来迅速发展的深度学习技术也逐渐应用于目标检测,并取得了较好的效果,但深度学习技术在工业环境下缺陷检测的应用却发展得较为缓慢。为此,本文深入研究工业环境下的缺陷检测算法,分析该领域内深度学习技术发展缓慢的原因。然后,
企业在生产经营过程中,为了提高经营能力和抵御风险的能力,而在战略上主动进行资产重组,以此寻求发展先机。在这个过程中,有些企业铤而走险利用不完善的市场规则,而出现借机炒作的行为,以此达到推高股价借机套利的目的。其中出现了“忽悠式重组”,这种形式目前还缺乏明确的界定,本意是指上市公司利用虚假重组来提升股价价格的形式。常常体现为:先向市场宣布重组的利好消息,停牌再复牌股价飙升,并出现大股东借机减持股票的
文脉是乡村发展的灵魂和重要根基,乡村生生不息的生命活力取决于这一不可摒弃的关键内核。随着乡村建设的大力推进,在乡村风貌日渐同化的过程中,其所蕴含的文化内涵与特色魅力也不断消退,乡村也随之又陷入诸多发展困境中。公共空间作为乡村文脉关键的空间载体,是村民日常生活交往的重要场所,在乡村人居环境的提升改善、文化特色的传承发展过程中承担着重要角色。闽西客家乡村公共空间承载着客家人的文化意识形态,其更新建设是
新一轮科技革命和产业变革与我国加快转变经济发展方式形成历史性交汇,国际产业分工格局正在重塑,提高制造业创新能力已刻不容缓。设计创新作为提升企业创新绩效、推动制造业高质量发展的突破口,已成为推动中国制造向中国创造转变的基础和关键,大量制造业企业也开始实践探索设计驱动型创新。设计驱动型创新的本质是企业通过各界诠释者组成的异质性设计创新网络,跨越边界对社会文化和技术知识等创新要素进行整合,最终实现突破式
近年来,随着我国新消费经济的快速发展,消费者以及广告方开始注意传统广告带来的收益正在下降,户外媒体广告以及互联网在线广告在未来将占据主流的地位。越来越多的资本方投入户外媒体行业的赛道,其中以电梯媒体行业表现最佳,因为其高频次以及长时间覆盖的特点在户外媒体中发展迅猛,将成为支撑户外媒体行业的重点产业之一。但由于资本的介入,导致梯媒行业规模发展过快,业务战略变化频繁,造成组织结构问题突出,组织执行力不
光催化燃料电池(photocatalytic fuel cell,PFC)是基于光电催化反应构建的燃料电池装置,已成功地用于开发光诱导的自供能传感平台,兼具光催化和电化学分析的双重优势。然而,基于PFC构建的自供能传感器大多以电池单一输出信号作为目标物的定量依据,易受光照强度等外界环境的干扰,导致检测结果出现误差。在本论文中,我们构建了比率型自供能光电化学传感器,使用两个输出信号的比值代替单一信号