论文部分内容阅读
近年来随着语音合成技术的不断发展,计算机合成语音的音质和自然度都有了明显的提高。用户也对语音合成也提出了更高的要求——多样化的语音合成,包括多个发音人、多种发音风格、多语种的合成等。目前在语音合成领域,为了满足这种多样化的要求通常采用自适应的方法进行说话人的转换,根据少量的目标说话人的数据,采用一定的方法对源说话人的语音参数进行调整,进而得到与目标发音人相似的语音。为此,本文对基于隐马尔可夫模型HMM(Hidden Markov Model)的说话人转换技术进行了详细的介绍,为改善不同情况下说话人转换的效果进行了相应的研究。论文第一章主要概述了本文的研究背景和说话人转换技术相关概念与方法。首先介绍了近几十年来语音技术的发展情况,然后简要分析了现有的几种常见的说话人转换方法,包括基本的思想、实现方法和优缺点等。论文第二章主要介绍了目前最为常用的基于HMM模型的说话人转换基本框架。包括HMM合成系统的流程,关键技术点,以及现在最常用的最大似然线性回归MLLR(Maximum Likelihood Linear Regression)自适应方法,为本文在说话人转换方面的工作做基础和铺垫。论文第三章主要讨论针对极少量目标数据时的本征语音(EigenVoice)模型自适应方法。为了改善在极少量数据时的说话人自适应效果,主要通过建立多个发音人模型,由最大似然准则进行模型加权的方法来实现说话人的转换。实验验证了仅有几句话时该方法相比MLLR自适应可以取得更好的效果。论文第四章主要结合最大后验概率MAP(Maximum A Posteriori)准则来改善现有的说话人转换效果。首先分析了MAP,结构化MAP(SMAP)等基本方法,然后通过MLLR、MAP、SMAP等的系统实验验证了结合MAP准则后自适应效果的改善,最后通过实验总结了现有自适应方法的效率与性能表现。论文第五章是针对跨语种的说话人自适应研究。主要是中英文的跨语种自适应,介绍了基于HMM的跨语种自适应方法,并通过实验研究了中英文跨语种自适应的效果。