基于序列到序列模型的语音合成算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liongliong440
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成是一种将文本转换成语音的技术,现已被广泛的应用于语音导航、有声电子书等人机交互系统中,为人们的生活带来了极大的便捷。多元化的应用场景对合成语音的可懂度、清晰度和自然度等提出了更高的目标。在现有的语音合成算法中,传统的波形拼接自然度高,但是音库制作周期长,并且需要占据大量的存储空间;基于隐马尔可夫模型的统计参数语音合成算法灵活度高,但是建模能力有限,易造成语音细节特征的丢失;基于神经网络的语音合成算法有效的提升了模型精度,但是仍需要复杂的前端处理,且整个系统由声学特征预测模型、音素时长预测模型、声码器等多个模块组成,易造成训练误差的累积。基于序列到序列模型的语音合成系统的出现,开辟了语音合成算法的新方向。该模型消除了复杂的文本处理过程,改善了现有算法的缺陷,实现了直接从文本到声学特征的映射,成为了当今语音合成的主流算法之一。本文立足于序列到序列模型,对语音合成技术进行了深入的研究。首先,研究了当前典型的基于序列到序列模型的语音合成系统——Tacotron,将该模型应用于开源英文单说话人数据集LJSpeech中,分析出模型存在的问题,即Tacotron系统中包含大量的循环神经网络结构,严重制约了模型的运算速度,实验结果表明,模型训练约249.6h时,才会得到基本可接受的语音质量。其次,针对循环神经网络训练效率过低这一问题,研究并实现了一种基于序列到序列模型和卷积神经网络的语音合成系统。从前端模块出发,研究字符向量嵌入维度对合成语音质量的影响。针对相同字母在不同单词中发音不同网络需要提取更强的上下文信息这一问题,将前端模块中的字符嵌入改进为音素嵌入。结果表明基于音素嵌入的方式在训练速度和合成语音质量方面均优于字符嵌入,和Tacotron系统相比,基于卷积神经网络的系统只需要训练大约9h就可以获得理想的语音质量,大幅的提高了模型训练速度。然后,实现了基于序列到序列模型和卷积神经网络的中文语音合成系统,针对中文汉字不表音且存在多音字这一问题,增加预处理模块,使用拼音作为字符标注,将文字转换成拼音输入至网络进行训练。结果表明,合成语音的主观质量评价分数达到了4.15,梅尔倒谱失真率为4.528896,较好的满足了实用要求。最后,提出了基于序列到序列模型和深度可分离卷积的语音合成系统。传统的卷积神经网络同时进行了特征抽取和特征融合的工作,当网络层数过深、隐藏节点过多时,仍然存在训练速度慢的问题。针对此问题,提出了使用深度可分离卷积代替传统的一维卷积,对原始模型进行改进。结果表明,改进后的模型显著的减少了参数量,在提高了训练速度的同时不会对合成语音的质量产生影响。
其他文献
目的:癌结节(Tumor deposits,TDs)是直肠癌预后的重要指标之一。在最新的TNM肿瘤分期系统中,TDs被纳入淋巴结分期,划分为N1c,而在合并有淋巴结转移的患者中,不再将TDs纳入分
本文依托国内外生态城市规划的理论基础和实践经验,以建设生态城市为理念,通过对重庆市大渡口区空间结构进行优化布局,将生态城市规划理念融合到分区规划中,为提高城市生态环
市委、市政府作出"一区两群"协调发展决策部署,加快推进主城都市区发展,是深入贯彻习近平总书记重要讲话精神和重要指示要求的具体行动,是认真落实中央关于推进新型城镇化、
随着《绿色建筑评价标准》GB/T 50378-2019的颁布实施,中国绿色建筑发展已从试点推广进入全面绿色化阶段。在这样的背景下,如何建立健全推广机制,是促进绿色建筑进一步发展的
在北方平原地区,多孔水闸经常出现与设计工况不同的部分孔小开度开启的情况,下泄水流流速较大,能量集中,出消力池后出现二次水跃,极易对闸后河渠造成冲刷破坏。选择合理的消能工形式,科学确定结构尺寸至关重要。通过数值模拟和物理模型试验对比二道坎式消力池和传统的挖深式消力池水流特性和消能效果,为改善闸后消能防冲设施损毁状况提供依据。主要研究内容和成果如下:(1)分析了多孔闸门在部分孔小开度开启时对下游造成的
大卫·哈维(以下简称哈维)是新马克思主义重要代表人物,国际前沿理论家,在社会学、人类学、政治经济学等方面都有重要建树。哈维的生态学马克思主义思想是在全球化进程中,全球生态危机越来越严重、以及各种生态保护运动和反资本主义运动此起彼伏的背景下,继承和发展马克思主义理论,生态学马克思主义理论、法兰克福批判理论以及生态学理论的基础上形成的。哈维的生态学马克思主义思想以其独特的历史-地理唯物主义、过程辩证法
人类对能源的需求日益增加,但传统的矿石燃料资源却日益枯竭,能源问题开始逐步凸显。交通领域是能源消耗“大户”,尤其是车辆的能源消耗在逐年增高,对环境的影响也在不断增加,社会对于清洁能源的需求越来越迫切。海洋能因其密度巨大、储量丰富,并且是清洁的可再生能源,因而备受关注。把海洋能和车辆相结合,一定程度上可以减缓能源压力,对于海洋能的应用领域研究和新能源在车辆上的应用具有研究意义。本文针对将海洋能和车辆
语音合成技术是指将计算机自己产生的、或外部输入的任意文字信息转换成标准流利的语音输出,具有着广泛的应用价值和重要的现实意义,被应用于实际生活中的各个场景。近年来,DNN在机器学习的各个研究领域取得的显著进展,证明了利用其非线性建模能力实现特征提取,能够提高算法进行分类或预测的性能。随着信息技术和人工智能技术的发展,人们对语音合成的需求日益增多,将DNN与语音合成技术相结合已成为语音合成领域的研究热
断裂作为油气系统中的重要因素之一,对油气成藏与富集起到极为重要的控制作用。塔里木盆地活动于加里东中-晚期的深大走滑断裂带具“控储、控运、控富集”的典型特点,深入开展对塔里木盆地加里东中期断裂体系研究,对指导盆地下一步勘探选区评价具有重要意义。本论文以三维地震资料、测井资料以及钻井资料等为基础,综合运用高分辨率层序地层学理论,先进的地震解释技术,如地震属性提取等方法,开展塔里木盆地加里东中期断裂体系
随着生活水平的提高,消费者对肉类食品的购买需求不断提高,同时更注重肉类食品的品质与安全问题,而肉类新鲜度检测是肉制品加工售卖中的重要环节,这就对肉类新鲜度检测技术提出了更高要求。在羊肉新鲜度检测方面,由于传统检测技术会对肉类造成一定程度的破坏,并且随实验环境变化可能出现很多误差。但这种方法跟不上现代检测的发展要求,因此急需找到一种快速无损检测肉类的方法。本文使用光纤光谱设备获取小尾寒羊肉的光谱数据