论文部分内容阅读
在信息技术与计算机科学迅速发展的今天,人们追求个性化,娱乐化,简单快捷的技术应用。声音转换或声音个性化技术就是这样一种能给人们带来全新体验的技术,它是当前语音技术研究的热点。
声音转换是改变源说话人的声音,使其听起来具有目标说话人特性的技术。它在语音即时聊天,电影、广播、电视中剪辑和配音,语音合成的语料库收集,语音合成后端语音的个性化处理,在说话人辨认,情报部门等都有很多应用。声音转换包括两个阶段:在训练阶段,提取源与目标说话人少量训练语音的说话人特征进行训练得到映射规则;在转换阶段,对源说话人测试语音特征按照映射规则预测目标语音特征,最后由预测语音特征合成转换目标语音。声音转换中的两个关键问题包括:1、建立精确的映射规则,即要拥有好的转换算法;2、获取代表说话人身份信息的说话人特征。声音转换主要任务就是要改变说话人特征,而其它的内容信息和说话环境信息则保留不变。其中主要变换两方面的说话人特征,音段特征(短时频谱)和超音段特征(基频)。在提取特征和转换合成语音时要用到语音分析合成模型,本文着眼点是在高质量STRAIGHT语音分析合成模型下所做的一些工作。
本文主要完成了以下几方面的工作:
(1)阅读国内外文献,了解语音转换的研究现状,熟悉各种语音转换方法的基础上,对其进行了优劣的比较。
(2)由语音识别采用动态特征参数得到启发,入耳对动态特征更为敏感。基于此,利用动态特征作为新的声学特征,用以提高声音转换质量。
(3)韵律特征反映了说话人的说话风格,尤其平均FO和语音速度对说话人识别的贡献很大,研究表明平均FO解释了55%的辨别说话人的能力。所以更好地变换韵律特征能使转换的语音更接近目标说话人。在目前韵律特征变换的基础上,本文采用了用联合矢量和CG-GMM模型的韵律特征变换方法,有效地改善了系统的转换性能。
(4)PSOLA算法是一种能在时域调节语音波形音长和音高的方法,PSOLA算法实时性好,且合成的语音无杂音,在时长基频调节范围很大的情况下,仍然能得到很好的音质。对此算法,本文进行了总结并在参考一些源码的基础上实现了此算法。通过(3)得到预测目标语音的韵律参数后,就可以用PSOLA算法实现韵律的调整。