基于HMM的语音合成中声学建模和模型训练的研究

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户:liyuanzhen001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“可以交谈的计算机”一直是语音技术、人工智能等相关领域科研工作者不懈追求的目标。HMM语音合成系统在可懂度方面已经达到了可以接受的程度,但在自然度方面离人们的期望还有一定的距离。声学建模是提高HMM语音合成系统自然度的主要挑战之一。本论文以HMM语音合成技术中的声学建模和模型训练等问题为主要研究对象,提出了一些提高合成语音自然度的改进算法。 本论文主要的工作(▲)和创新点(★)归纳如下:▲本文分别研究了Mel-Cepstral分析合成和LPC分析合成技术,并通过主观听测实验分析了上述两种分析合成技术在重建语音的质量和听感等方面的区别。 ▲在参数语音合成系统中,采用MELP(MixedExcitationLinearPrediction)声源模型可以提高合成语音的自然度,为了在宽频带获得质量较高的重建语音,本文对标准的2.4kbps速率下的MELP编码器中的LP分析合成、基频估计以及滤波器组设计等算法进行了修正。 ★由于MELP的声源激励模型的线性相位假设与实际语音不符,所以合成语音的自然度还不够理想。本文提出了一种全新的脉冲形状滤波器系数提取算法,该算法利用浊音余量信号波形的周期相似性,并在加权均方误差最小的准则下重构浊音相位信息,从而改进了传统的混合激励声源模型。实验结果表明,改进的声源模型与传统模型相比合成语音自然度有了显著改善。 ★提出了一种采用最小贝叶斯信息准则(MBIC,MinimumBayesianInformationCriterion)来最优化控制决策树结点分裂程度的算法。本文首先在理论上阐述了MBIC能够较好地解决模型参数复杂度与训练数据集规模之间的权衡问题,然后给出了基于MBIC的决策树分裂停止准则的计算公式,最后进行了汉语连续语音全音节识别实验,实验结果表明与传统的MLC(MaximumLikeihoodCriterion)相比,MBIC对声学模型参数和训练数据集的变化具有更好的适应能力。 ★本文提出了一种协方差矩阵特征值低限的自适应快速计算方法,在训练数据量给定的条件下,通过将低限代替小于低限的特征值来可以进一步提高满协方差矩阵的分类性能。连续语音全音节识别实验结果表明修正后的满协方差矩阵的分类性能有了明显提高。本文对单高斯满协方差矩阵与多高斯对角协方差矩阵的建模精度和计算性能进行了比较,并进行了对比实验。 ★语音基频序列和谱参数序列的建模和合成在MSD-HMM(Multi-SpaceProbabilityDistribution-HMM)理论框架下能够得到很好的解决。本文推导了MSD-HMM前后向计算公式和Baum-Welch参数估计算法在HTK嵌入式训练中的具体形式,为在HTK上工程实现MSD-HMM奠定了数学基础。 ▲在以上的工作基础上,设计并实现了一个基于HMM的英文语音合成引擎。
其他文献
利用T-DNA介导的启动子诱捕载体(promotertrapvector)转化拟南芥,我们本研究分离到了一个多效突变体,称为155系。本文在整体水平、组织水平和细胞水平上深入研究了该突变体的表
菩萨普度众生,流氓只为自己。做不了前者,也不必去做后者吧。 Bodhisattva sentient beings, rogue only for themselves. Can not do the former, do not have to do the l
本文通过对荣华二采区10
期刊
进化优化算法作为一种启发式的搜索算法,已经得到了广泛的应用,而面向多目标优化的进化算法也成为最近在优化方面的热点,本文在深入查阅国内外文献的基础上,对进化优化算法的研究
獐(Hydropotesinermisinermis)为我国特产的保护动物。至今为止,由于栖息地的丧失及乱捕滥猎,野生獐种群的数量及分布范围己急剧减少,因此深入了解目前獐各地理种群的形态及分子
在科学技术飞速发展的今天,传统的人工抄录电表的方式已经无法满足时代的需求。随着国家电力系统两网改造工作的逐渐推进,“一户一表,管电到户”政策的贯彻,用电网络急剧膨胀,使得
数字同步网与电信管理网、信令网一起并列为三大支撑网,在电信运营商网络中,同步网并不直接面向客户,但在电力通信网络中,同步网络需要像其他业务网络一样,直接面向其服务的电力生
近年来,图像、视频等其它多媒体服务的需求越来越大,但是目前的网络大多都是提供一种尽力而为的不可靠传输服务,传输差错会令它们的接收质量严重下降,而传统的方法并不能很好地解
对于声纳信号处理系统而言,稳定、低功耗和高性能的要求是放在首位的,而DSP正具有这些特点。目前,对实时数字信号处理的应用需求和超大规模集成电路技术水平的飞速发展,推动着DSP
Hepassocin(HPS)是特异性在肝再生过程中表达的基因,其cDNA为936bp的片段编码312个氨基酸残基的多肽。Hepassocin单体34kDa,体内以同源二聚体的形式发挥促肝细胞增殖的活性。成