基于少量数据集的端到端语音合成技术研究

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:hellolvkui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成是一种将文本转化为语音的技术。端到端的语音合成方法是通过深度学习算法来建立文本转为语音的条件概率模型,最大化模型的生成概率实现文本到语音的特征映射。目前,大部分语音合成的模型结构都是基于网络层数较深且设计较复杂的网络来建模,为保证高质量语音合成,需要依靠大量数据集训练大规模的网络参数。因此,数据集的大小仍然是语音合成质量的一大瓶颈。为了解决少量数据集下合成音频质量不足的问题,本文将主流的语音合成模型tacotron改为文本特征与LPCC系数的转换网络,将该网络作为前端模型,与LPCNet的后端声码器结合。实验过程中两个模型分别训练,但合成过程实现端到端。本研究将结合后的整体模型作为实验的基础模型,通过说话人自适应、新增说话人和基于隐变量的说话人合成三个方向分别设计改进实验。实验结果表明,当目标数据集时长为10分钟,并且有其他说话人的音频数据时,基于隐变量的合成方法和部分参数调整的自适应方法效果最好,两者在测试集上的MOS值分别为2.88和2.87;当目标数据集时长为30分钟且无其他说话人数据集时,全参数调整的自适应方法效果最好,MOS评分达到3.06,测试集的LPCC损失可降为0.3334,如果训练集中包含有大量多说话人数据,说话人嵌入矩阵的方法也能达到类似的效果,测试集的MOS值可达到3.07,此时LPCC在测试集的损失为0.2654。
其他文献
伴随者计算机技术不断深入,数字地面模型(DTM)的数据获取方法、数据存储和数据处理速度等方面取得突破性进展,基于数字地面模型方面的产品越来越广泛的用来代替传统地形图对
从爆炸产生的原因着手,通过不同的评价和计算角度分析常见的炼油装置存在的爆炸危险,从而识别装置中的爆炸危险所在,并从安全设计和安全管理方面阐述了应采取的防范措施。
以闭式循环高压补燃液氧/煤油液体火箭发动机的燃气发生器为研究对象,采用了SIMPLEC方法和非结构性网格技术对其燃烧室进行了三维燃烧流场的稳态数值模拟,其中湍流采用RNG k-
胆红素是从猪、牛、羊等动物胆汁中提出来的贵重生化药品,是合成人工牛黄的主要原料,具有解热、祛痰、镇静、抗惊、抑菌、降压、促进红血球新生,对乙型脑炎病毒和W256癌细胞有抑
电声课程是教育技术专业中一门实践性很强的专业基础课,实验教学对学生验证、理解课堂讲授的知识、运用知识分析解决实际问题有着重要作用.要培养高素质的电声人才,实验教学
目的 建立高低不同转移特性的人骨肉瘤克隆重细胞株。方法 通过克隆技术和细胞电泳,从我们建立的骨肉细胞素LTH-OS(简称S)中获得两株细胞S1和S2,测定两种细胞的率,利用软琼脂克隆重形成率和
中央党校研究室副主任周天勇说,2009年预计中国有3000万左右农民工失业,往年没有就业和今年毕业需要就业的大学生有900多万,另外,还有其他需要就业的,全部就业压力在5000万左右。
近年来随着电商产业的快速发展,“互联网+”和物流行业的融合已经成为我国未来物流业发展的大趋势。但是,快递物流业的发展速度与消费者对快递服务的高质量要求并不完全匹配
自恋者面对不公正事件的情绪反应与应对策略,可以通过公正敏感性反应出来。本研究自编《大学生自恋人格问卷》,探究大学生自恋人格特点的差异性及其与公正敏感性的关系。研究一编制《大学生自恋人格问卷》。共34个项目,分为控制欲、防御性、归属感三个维度。对15位在读研究生进行访谈,预测阶段共发放220份问卷,回收有效数据样本197份。经数据分析证实,该问卷信效度良好。研究二为正式问卷施测阶段。探究大学生自恋人
语音转换是语音信号处理领域的一个重要分支,具体说来,语音转换即是保持语音中的语义不变,仅改变说话人的个性信息,使之听起来像特定说话人的声音。语音转换的研究包含语音信