基于深度卷积自动编码器的语音转换研究

来源 :肖睿彤 | 被引量 : 0次 | 上传用户:limutou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换起到了丰富语音风格的作用,被广泛用于配音、网络直播等场景,是当今语音领域的研究热点。语音风格包括声纹风格、情感风格等类型。语音转换旨在将源语音的风格转换成目标风格。近年来,语音转换取得了一定的发展,但还存在诸多尚未解决的问题,如:声纹转换方面,目前大多数转换算法源说话人信息与语意内容的分离不彻底,内容信息与目标说话人信息的融合效果不佳,导致转换语音的说话人相似度差,无法做到零样本学习转换,即无法以训练集外的说话人为目标进行转换。情感转换方面也面临着情感与内容信息难分离的问题。针对上述难点,本文基于深度学习的方法在声纹转换和情感转换方面开展研究,主要工作如下:(1)提出了一种基于通道注意力机制的零样本学习声纹转换算法。所提出算法利用具有通道宽度约束的通道注意力在内容编码器模块形成了一个可学习的瓶颈,减少内容编码中的冗余,进行内容信息与源说话人信息的解耦。另一方面,该算法在解码器模块利用通道注意力机制将内容特征映射到目标域上,实现内容信息与目标说话人信息的特征融合。同时,为了提升了说话人编码效果,算法在训练阶段将说话人编码器与分类器级联。实验结果表明,所提出算法生成的语音在说话人相似度和语音自然度方面都优于基线模型。(2)提出了一种基于矢量量化进行解耦的情感转换算法。该算法在内容信息与情感信息的解耦方面,利用矢量量化方法,通过有限的符号对内容信息做离散化表征去除冗余的情感信息,实现了更好的解耦效果。上述矢量量化方法可能导致明显的内容损失,该算法针对该问题设计了一种时频域随机重采样模块对数据进行预处理,以制造平行情感语料辅助模型进行有监督训练。实验结果表明,所提出的算法具有更好的情感转换效果,并能生成高质量的转换语音。综上,本文针对语音转换中的特征解耦和融合问题提出了新的方法,起到了丰富语音风格、提升语音交互自然度、支撑大规模语音数据集构建的作用,为语音领域的进一步发展提供了参考。
其他文献
高效的非侵入性检测原位生物标志物对于准确的疾病早期诊断和疗效评价具有非常重要的意义。对生物标志物响应的可激活式光声/近红外-II(NIR-II)荧光双模探针可以结合光声成像和NIR-II荧光成像的优点从而更好地实现对病理状态的评估,展现出了很大的应用潜力。本文以三氰基呋喃为受体,设计制备了两种可激活式光声/NIR-II荧光双模探针,并研究了其对相关生物标志物的响应及成像应用。主要内容如下:(1)设
学位
我国保险业的高速发展需要完善的保险法律制度提供保障。理论上,保险法不可抗辩条款具有平衡保险活动当事人之间的利益、维护保险市场的公平秩序、促进保险业健康发展等方面的功能价值。实践中,该条款的适用状况,决定其功能价值的实现状况。本文综合运用实证分析法、案例分析法等方法研究了不可抗辩条款在我国司法实践中的适用现状,并从现状中的问题出发,探索优化思路。实证分析发现,当前我国《保险法》不可抗辩条款在司法适用
学位
本论文制备了两种用于核工业设备上水性可剥离涂料,其中可剥离去污涂料用于核工业领域不锈钢设备的去污;可剥离保护涂料用于核工业领域新设备的保护以及对放射性玷污设备的污染物固封。论文主要分为两个部分:第一部分是可剥离去污涂料的制备与性能研究。选择了改性丙烯酸为成膜物,探究了水性助剂的种类和添加量对涂料性能的影响,确定了可剥离去污涂料的基本配方。对改性丙烯酸涂层采用Co60γ射线辐照,探讨了辐照对涂层外观
学位
相对于股份有限公司而言,有限责任公司具有人合性和封闭性的特征,该特征导致有限责任公司更容易发生公司僵局的问题,因此有限责任公司僵局的化解问题更具有讨论意义。2005年修订的《公司法》第183条及相关司法解释确立了我国有限责任公司僵局化解的司法路径。基于此,本文主要从有限责任公司僵局化解问题的提出、我国有限责任公司僵局化解司法路径的实践考察、域外有限责任公司僵局化解的司法路径借鉴三个部分进行研究,最
学位
近年来,标准必要专利垄断高价案件在国内外频繁发生。标准必要专利权人索取高价许可费的相关问题,于各国引发争议与讨论。现实中对标准必要专利高价许可存在两种不同的反垄断规制态度。一种是奉行不干预主义,认为反垄断的价格干预会阻碍知识的创新研发以及产业与文化的发展。另一种是奉行干预主义,认为标准必要专利权人过高定价的行为可能构成滥用市场支配地位,将破坏反垄断法所欲维护的市场竞争秩序,扭曲竞争机制有效分配社会
学位
中长链脂肪酸甘油三酯(Medium and long-chain triacylglycerol,MLCT)是同时含有中链脂肪酸(Medium chain fatty acid,MCFA)和长链脂肪酸(Long chain fatty acid,LCFA)的结构酯,具有加速体内脂质代谢、快速提供能量等功能。但是大量研究集中在合成富含油酸(ω-9脂肪酸)和亚油酸(ω-6脂肪酸)的MLCT,关于制备富
学位
透明隔热涂料是一种吸收屏蔽近红外光、紫外光的新型涂料,涂覆在建筑窗户、玻璃幕墙等建筑玻璃结构上,在保证高可见光透过率的前提下,增加隔热功效,达到节能减排的目的。氧化锡锑(ATO)是目前主流的透明隔热填料之一,但其在聚合物乳液中容易受游离离子的干扰而聚沉,在聚合物乳液中分散性差,达不到高可见光透过率及隔热的效果。另外,目前现有的水性透明隔热涂料耐水以及耐候性差,长效性难以保证。针对透明隔热涂料现状,
学位
2019年佛山市GDP达到10751.02亿元,成为GDP万亿俱乐部的其中一员,并被第一财经·新一线城市研究所评为新一线城市。随着《粤港澳大湾区发展规划纲要》出台,作为粤港澳大湾区重要节点城市之一,佛山市高质量发展迎来了新的机遇和挑战。佛山市出台了《佛山市人才发展体制机制改革实施意见》(佛发〔2018〕2号)及相关实施细则,初步构建了具有竞争力的人才制度体系。引起了省内广泛关注,也吸引了一批批多方
学位
睡眠分期在医学上主要用来评估患者的睡眠质量,其评估的依据主要基于从受试者身上采集的多道睡眠图信号。对患者的睡眠记录进行判读是医生诊断睡眠病症的预备工作,也是探索睡眠规律、分析睡眠健康的重要基础。由于睡眠分期的判读规则较为复杂,且记录信号的持续时间较长,医生判读睡眠信号的工作量颇为繁重。因此,针对睡眠脑电信号的自动睡眠分期方法具有很高的实用价值。本文在对比学习的方法基础上,对单通道脑电信号的自动睡眠
学位
背景与目的外伤、炎症、肿瘤等原因所造成的节段性骨缺损愈发常见,临床治疗方案以骨移植最佳,但植入材料的来源有限、免疫排斥与结构匹配不良等缺陷严重影响其修复效果,CAD、3D打印与生物活性陶瓷的出现为骨缺损治疗提供了新的契机。本研究拟构建稳定的比格犬股骨节段性骨缺损模型进行个性化修复方案的探索,进一步研究以β-TCP支架为代表的生物活性陶瓷在股骨节段性骨缺损修复中的成骨规律与效果,为临床治疗提供实验基
学位