语音合成中的神经网络声学建模方法研究

被引量 : 0次 | 上传用户:mrchangmeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,统计参数语音合成(Statistical Parametric Speech Synthesis, SPSS)已经发展成为和单元挑选与波形拼接相并列的一种主流语音合成方法。其中,基于隐马尔可夫模型(Hidden Markov Model, HMM)的统计参数语音合成是其最为常见的实现方法。该方法借鉴了基于HMM的自动语音识别(Automatic Speech Recognition, ASR)中的一些成熟算法,并且针对语音合成任务的特点,衍生出多空间概率分布、最大似然参数生成等一系列关键技术。它相对于单元挑选与波形拼接方法,具有系统构建自动化程度高、存储空间小、合成语音平稳流畅、拓展能力强等优点。但是该方法在合成语音的自然度和音质上与单元挑选与波形拼接方法相比仍然有一定的差距。基于HMM的统计参数语音合成中声学建模能力的不足是导致这一问题的主要原因之一。随着深度神经网络(Deep Neural Network, DNN)在自动语音识别中的成功应用,自2013年以来基于神经网络的统计声学建模方法也成为了语音合成研究领域的研究热点,并取得了积极进展。神经网络相对传统统计参数语音合成中使用的HMM模型和基于决策树聚类的高斯状态分布,对于高维声学特征的维间相关性以及输入文本特征与输出声学特征之间的复杂映射关系有着更强的建模能力。因此,本文围绕统计参数语音合成中基于神经网络的声学建模方法开展研究工作。针对频谱特征建模中的高维谱包络维间相关性描述问题,提出了基于神经自回归分布估计模型(Neural Autoregressive Distribution Estimator, NADE)的HMM状态分布建模方法和基于深度条件受限玻尔兹曼机模型(Deep Conditional Restricted Boltzmann Machine, DCRBM)的频谱特征建模方法,提高了频谱特征建模精度,改善了合成语音的音质和自然度:考虑到基频产生的叠加特性和基频感知的长时特性,提出了基于DNN的层次化基频建模方法,降低了基频特征的预测误差,提高了合成语音的自然度:最后,探索了一种端到端的语音合成声学建模方法,利用基于注意力的递归序列生成器(Attention-based Recurrent Sequence Generator, ARSG),实现了基于神经网络的语音合成中对于特征对齐和特征预测的一体化建模。整篇文章的安排如下:第一章是绪论,简要介绍了语音的产生机理,回顾了语音合成技术的发展历史以及几种常见的语音合成方法。第二章首先介绍了基于HMM的统计参数语音合成方法,包括HMM的基本原理、基于HMM的语音合成系统框架以及四个关键技术,分析了该方法的优缺点。其次回顾了神经网络的发展历史以及其在语音合成声学建模中的已有应用。最后阐述了本文结合神经网络进行语音合成声学建模研究的动机与出发点。第三章提出了一种基于神经自回归分布估计模型(Neural Autoregressive Dis-tribution Estimator, NADE)的频谱状态建模方法。已有的基于受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)的谱包络状态建模方法,使用RBM模型取代高斯分布用于描述HMM中各状态的频谱特征分布,取得了一定的改进效果。但是RBM模型存在输出概率以及参数梯度无法精确估计的不足,而NADE模型可以将观察值的输出概率分解为一系列可简单计算的条件概率乘积的形式。因此,本文提出使用NADE模型进行HMM各状态谱包络特征分布的建模,主客观实验结果表明该方法可以有效提高建模精度以及合成语音音质。第四章针对当前基于DNN的统计参数语音合成无法有效建模频谱特征维间相关性和分布多模特性的问题,提出了基于深度条件受限玻尔兹曼机(Deep Conditional Restricted Boltzmann Machine, DCRBM)的频谱特征建模与预测方法,并实验分析了多种不同的DCRBM预训练机制。该方法使用RBM作为DNN的输出层,将DNN的特征问关系建模能力与RBM的高维特征表征能力相结合,不仅能够体现给定文本特征情况下,声学特征条件概率分布的多模特性,也可以对高维谱包络的维间相关性进行有效描述。测试结果表明,该方法相对于传统的HMM建模方法、以及基于DNN和深度混合密度网络(Deep Mixture Density Network, DMDN)的频谱特征建模方法,均能取得更优的合成语音音质。第五章将对基于DNN的基频特征建模方法进行研究。在分析了传统基频建模方法的局限性之后,考虑到基频产生的叠加特性和基频感知的长时特性,本章提出了基于DNN的层次化基频建模方法,设计实现了层叠式DNN以及并行式DNN两种模型框架。主客观测试结果表明该方法能够有效地降低基频预测误差并提升合成语音的自然度。第六章对端到端的语音合成方法进行了探索性研究。端到端的语音合成旨在将前端文本分析和后端声学建模相融合,实现文本与声学这两种不等长序列之间的直接转换。本章利用基于注意力的递归序列生成器(Attention-based Recurrent Sequence Generator, ARSG),实现了基于神经网络的语音合成中对于特征对齐和特征预测的一体化建模,在不依赖HMM的情况下合成出了具有较高平滑度和可懂度的语音。第七章对全文进行了总结。
其他文献
晕轮效应是个人的主观推断泛化和扩张的结果,是根据他人的某个特征而泛化到其他有关一系列特征上,从局部信息形成一个整体印象。随着众多学科的不断渗透和发展,晕轮效应在市
综述了棘豆Oxytropis主要有毒成分苦马豆素(Swainsonine)的来源、毒性原理、对家畜危害及防治办法的研究进展。棘豆中苦马豆素主要来源于内生菌(endophyte)的代谢产物,其含量
法学教育的目的在于培养具有法律思维能力,具备法律职业技能的人才。现阶段中国本科法学教育中,对学生的法律职业技能与法律思维的培养重视不够,使毕业生不能适应社会的要求
以试验数据作为训练样本,对现有的误差反向传播神经网络算法进行了改进,构建了摩擦焊工艺中主要参数与接头性能(强度)间的非线性相关模型,并采用该模型对接头强度值和主要工
针对目前创新人才培养过程中实验室安全与环保素养培养缺位的情况,探索了大学生实验室安全与环保素养培养模式。通过更新培养理念、明确培养目标、搭建学习平台、建立和健全
<正>随着现代化教育教学观念的深入,多媒体技术在教育中的应用越来越广泛。近年来,多媒体技术在幼儿园的应用也开始普遍起来,成为幼儿园教育教学中不可缺少的一部分。多媒体
目的分析准分子激光角膜磨镶术(Laser-Assistedin Situ Keratomileusis,LASIK)角膜游离瓣的成因并总结护理对策及效果。方法选取我院眼科2015年1月~2018年5月行LASIK手术治疗
在智能交通系统中,交通信息检测是其重要的组成部分。它是将各种传感器检测到的信息进行融合,得到实时准确的交通流数据,送给智能交通控制中心,再由控制中心进行处理和判断,
引进岩石时效强度理论及Kachanov损伤理论,建立以时间变量表示的岩石损伤表达式,并将其与岩石黏塑性流变参数相联系,建立包含加载时间、加载应力等变量在内的岩石黏塑性流变参数
通过介绍D12发动机缸体毛坯开发过程中遇到的气孔、水套内腔粘砂、结疤等缺陷的解决方法,提出细化对砂芯排气、制芯过程排气等细节的研究和优化的重要性。