【摘 要】
:
语音克隆是一种比较广泛的概念,诸如“语音风格迁移”、“语音转换”等都可以称为语音克隆技术。本文的语音克隆技术是从语音中提取声学特征,并以此合成指定内容的语音。语音克隆应用的领域十分广泛。例如最近日渐兴盛的虚拟主播行业。虚拟主播是指不用真人出镜,使用虚拟形象进行直播活动的主播。同时也能够在游戏配音、残障人士的复健治疗、手机的语音助手等领域大放异彩。目前现有的语音克隆方案依托于大量的数据集和人工对于韵
论文部分内容阅读
语音克隆是一种比较广泛的概念,诸如“语音风格迁移”、“语音转换”等都可以称为语音克隆技术。本文的语音克隆技术是从语音中提取声学特征,并以此合成指定内容的语音。语音克隆应用的领域十分广泛。例如最近日渐兴盛的虚拟主播行业。虚拟主播是指不用真人出镜,使用虚拟形象进行直播活动的主播。同时也能够在游戏配音、残障人士的复健治疗、手机的语音助手等领域大放异彩。目前现有的语音克隆方案依托于大量的数据集和人工对于韵律的调整,条件苛刻并且耗时耗力。同时中文高质量的开源语音数据较为匮乏,许多语音数据被科大讯飞等公司独占。为了解决这些问题,本文提出了基于深度学习的语音克隆技术。该方法区别于传统模型,采用了 3个模型联合建模,分别采用不同数据集,进行独立的训练。其可以使用目前的开源数据集并在低性能设备上实现良好的效果,并具有比较快的生成速度。本文的主要工作如下:(1)本文设计了一个语音克隆算法,由三个模块组成:encoder(编码器)模块将说话人的声音转换成speaker embedding(说话人特征),提取出指定说话人的语音特征;synthesizer(合成器)模块将文本和编码器输出的speaker embedding转换成Mel-spectrogram(梅尔谱图);vocoder(声码器)模块将Mel-spectrogram转换成waveform(声波),根据梅尔谱图生成高质量、高自然度、清晰的语音。(2)encoder模块先对语音进行预处理,然后使用说话人分类,对输入的语音数据进行初步分类,把相同或相似说话人的语音分为一类以便提取语音特征,以此优化编码器模型使提取的语音特征更加准确。(3)synthesizer模块对显性变量例如基频轮廓和发音决策进行控制以避免文本与语音信息的纠缠,也对潜在变量例如矢量字典、文本和Mel-谱图之间的注意力模块进行控制,可以在数据集中并未包含情感训练数据的前提下,在训练过程中精准的控制音调和发音决策以生成更加自然地语音数据。(4)vocoder模块选用了基于WaveNet的改进模型。其不再注重于频谱包络的建模,使用数字信号处理的方法处理滤波器,使神经网络专注于使频谱平坦。另一方面,采用了多频带多时间的策略使语音质量得到保证的同时,大大降低了复杂度。(5)将本文语音克隆算法应用于工程实践中,设计了“虚拟主播的语音克隆系统”。为了证明本文技术的可靠性和实用性,采用主观和客观方法相结合的评价方式对生成的语音数据进行评价。通过对比分析原语音和本文克隆算法生成的克隆语音梅尔谱图的差异,和测评人员主观打分的结果,都证明了本文算法的合理性和有效性。
其他文献
路面根据结构化程度分为结构化路面和非结构化路面,目前无人驾驶对于结构化路面的研究相对成熟,对于非结构化路面的研究相对较少。作为主动三维测量的结构光测量方法,能够很好适用于坑洼不平等非结构化路面形貌的测量,但由于采集处理的数据量较大,应用传统PC机方式难以满足无人驾驶实时处理的要求。针对这个问题,本文研究基于FPGA的结构光图像实时采集与处理技术。主要工作如下:首先,针对结构光测量系统中图像采集与处
长久以来,全固态激光器在激光领域备受青睐,其中1.34 μm激光光源在光纤通讯、激光医学、量子信息、大气污染监测等领域都发挥着重要的作用。伴随着激光器诞生开始,其工作效率和光束质量的优化就成为研究的重点。影响激光器工作效率的因素有许多方面,如泵浦方式的选择,谐振腔设计,温度控制等。本文选择从泵浦源抽运模型,能级速率方程和热效应等方面来研究固体激光器运转特性,主要内容如下:1)将泵浦光高斯分布模型变
现如今各个国家人口都向着城市大规模聚集,有限空间带来的压力对城市建设产生了深远影响,以往的那些结构简单、功能单一的传统建筑形式再无法满足人们的使用和审美需求。而高层六边形网格筒结构作为斜交网格筒结构这种新型结构体系在立面网格布置形式上的一种补充,凭借着其更大的结构抗侧刚度,构件之间更好的空间协同工作能力,以及外立面更优越的采光性能,被应用于经济发达城市或地区的标志性建筑,但目前也仅仅只是局限于个别
光电观瞄系统作为陆军侦查感知装备中的核心系统之一,在目标探测识别和战场态势感知等方面发挥着重要的作用。本文针对陆基光电观瞄系统高分辨率侦察的需求,开展基于压缩感知理论的成像技术研究。将压缩感知理论与光学成像技术相结合,提出了一种共轭像平面编码压缩成像方法,设计并验证了可行技术方案,通过实验系统测试了技术所能达到的性能指标,论证了技术优越性,并借助于Jetson TX2嵌入式平台进行了图像重建算法的
故障共享单车回收车辆路径优化具有重要意义。故障共享单车存在于共享单车停放站点或分散于城市道路网络边上,回收量不确定且大于单个车辆的最大装载量,因此单次回收难以满足需求。本文研究需求不确定的故障共享单车回收PVRP(周期性车辆路径问题),以回收车辆行驶总距离最小为目标,考虑站点和路网边上存在故障共享单车的不同情形,建立模型并进行求解,为故障共享单车的回收提供理论依据。论文主要创新性成果如下。需求不确
近年来,故障预测与健康管理(Prognostics and Health Management,PHM)技术在航空航天、电子装备领域发展迅速,但在地面兵器装备中的研究尚处于起步阶段,未形成完整的体系结构。新研制的自行火炮是一种复杂装备,涉及多学科多领域,其可靠性和稳定性是确保装备顺利完成作战任务的关键条件。因此,在自行火炮中研究PHM技术,评估装备的健康状态、预测未知故障,对提高装备的维修保障效率
随着科学技术的不断发展,越来越多的嵌入式系统被应用在军事、航空航天、工业控制、卫星通信等多个领域。然而,近年来国际上频繁发生威胁国家信息安全的事件,促使我国加快了构建自主可控的软件生态体系步伐,作为软件行业基础的操作系统重新备受关注。为了进一步保障国家的信息安全以及早日实现完全的自主可控,本项目基于中航工业研究所研发的国产化操作系统,开发一套符合该操作系统特点的TCP/IP网络协议栈。该国产化操作
近来年,高熵合金以其优异的强度、硬度以及良好的耐磨性受到材料科学与工程领域专家学者的广泛关注。高熵合金的力学性能在很大程度上取决于晶界的性质以及特殊晶界的分布,因此,晶界对其拉伸力学的影响引起了很多学者的关注,研究不同取向晶界对高熵合金力学性能影响的机制尤为重要。本文利用分子动力学模拟方法,采用重合位置点阵思想建立不同取向晶界单相面心立方晶体结构Al0.1CoCrFeNi高熵合金模型,对含有不同取
随着电子技术的不断发展,航天和军事领域对火工品的安全性和可靠性提出了更高的要求。火工品作为武器系统的核心元器件,为弹药发射、目标物毁伤等发挥了非常重要的作用,一旦火工品发生失效,轻则导致武器系统失效,重则造成经济损失甚至人员伤亡,因此对火工品的失效评价具有非常重要的战略意义。本文以火工品起爆时的失效电流信号为研究对象,提出了一种基于希尔伯特-黄变换(Hilbert-Huang Transform,
随着自动驾驶与高级辅助驾驶的发展和应用,动态环境感知技术应运而生,目前主要运用激光雷达和摄像机配合超声波雷达的方式,以获取结构化道路的障碍物和道路标识信息,但对于非结构化道路,尤其是针对坑洼不平的泥土、沙石路面的形貌获取,采用结构光测量法效果更佳。为解决待测路面三维几何轮廓的获取问题,系统标定作为点云数据获取的的关键技术,为测量系统提供二维图像与空间区域的物-像映射关系。本文研究一种通过摄像机和光