论文部分内容阅读
语音合成技术在人机交互领域是一个重要研究内容,有着广泛的应用,歌声合成是语音合成的研究热点。本研究利用了文语转换(Text-To-Speech,TTS)技术,通过HTS(HMM-based Speech Synthesis System)实现歌声的合成。利用训练语料建立说话人相关的声学模型。通过MIDI(Musical Instrument Digital Interface)乐谱,获得歌声的音乐信息。通过分析对比说话语音和歌声信号在声学特征方面的差异,建立歌声的旋律控制模型。对输入的歌词文本进行文本分析,获得上下文相关的标注,并利用训练得到的说话人相关模型,获得说话人相关的声学参数。通过旋律控制模型对声学参数进行修改。最后,利用STRAIGHT(Speech Transformation and Representation based on Adaptive Interpolation of weiGHTed spectrogram)算法实现了基于HMM(Hidden Markov Model,HMM)的歌词到歌声的转换。论文的主要工作与创新如下:1.建立了面向歌曲合成的基于HMM的说话人相关的声学模型。利用多说话人的语音语料,分析语音,得到基频(F0)、时长、频谱(SP)以及非周期索引(AP)等声学参数,并利用说话人自适应训练技术,训练获得平均音模型。在此基础上,利用目标说话人的语音,通过说话人自适应变换技术,得到目标说话人的声学模型。2.建立了旋律控制模型。从MIDI文件提取乐谱信息,分析乐谱文件结构,获得通道标号、音符音高、键的速度、音符起始时间、音符持续时间等音乐信息。分析语音和歌声在声学特征的差异,建立了歌声的旋律控制模型,包括基频控制模型和时长控制模型。利用基频控制模型将乐谱中的离散音高转换为连续的基频曲线,并利用时长控制模型获得歌唱音符的发音时长。3.实现了歌词到歌曲的转换。对输入的歌词文本进行文本分析,获得上下文相关的标注,并利用说话人相关的模型,生成频谱、非周期索引2个声学参数。同时根据MIDI文件,获得歌词中每个音符的音高和音长,并通过旋律控制模型获得相应的基频和时长,并根据音符时长获得音节的频谱、非周期索引和基频的时长。最后,利用STRAIGHT算法实现歌声的合成,并加入音乐伴奏。对转换的歌声进行了主、客观评测,结果表明,转换的歌声音质较好。