基于HMM的歌词到歌声转换的研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:chxong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成技术在人机交互领域是一个重要研究内容,有着广泛的应用,歌声合成是语音合成的研究热点。本研究利用了文语转换(Text-To-Speech,TTS)技术,通过HTS(HMM-based Speech Synthesis System)实现歌声的合成。利用训练语料建立说话人相关的声学模型。通过MIDI(Musical Instrument Digital Interface)乐谱,获得歌声的音乐信息。通过分析对比说话语音和歌声信号在声学特征方面的差异,建立歌声的旋律控制模型。对输入的歌词文本进行文本分析,获得上下文相关的标注,并利用训练得到的说话人相关模型,获得说话人相关的声学参数。通过旋律控制模型对声学参数进行修改。最后,利用STRAIGHT(Speech Transformation and Representation based on Adaptive Interpolation of weiGHTed spectrogram)算法实现了基于HMM(Hidden Markov Model,HMM)的歌词到歌声的转换。论文的主要工作与创新如下:1.建立了面向歌曲合成的基于HMM的说话人相关的声学模型。利用多说话人的语音语料,分析语音,得到基频(F0)、时长、频谱(SP)以及非周期索引(AP)等声学参数,并利用说话人自适应训练技术,训练获得平均音模型。在此基础上,利用目标说话人的语音,通过说话人自适应变换技术,得到目标说话人的声学模型。2.建立了旋律控制模型。从MIDI文件提取乐谱信息,分析乐谱文件结构,获得通道标号、音符音高、键的速度、音符起始时间、音符持续时间等音乐信息。分析语音和歌声在声学特征的差异,建立了歌声的旋律控制模型,包括基频控制模型和时长控制模型。利用基频控制模型将乐谱中的离散音高转换为连续的基频曲线,并利用时长控制模型获得歌唱音符的发音时长。3.实现了歌词到歌曲的转换。对输入的歌词文本进行文本分析,获得上下文相关的标注,并利用说话人相关的模型,生成频谱、非周期索引2个声学参数。同时根据MIDI文件,获得歌词中每个音符的音高和音长,并通过旋律控制模型获得相应的基频和时长,并根据音符时长获得音节的频谱、非周期索引和基频的时长。最后,利用STRAIGHT算法实现歌声的合成,并加入音乐伴奏。对转换的歌声进行了主、客观评测,结果表明,转换的歌声音质较好。
其他文献
2007年6月25日,受低层强西南暖湿气流和高层干冷空气入侵的共同影响,江西省赣中、赣东北出现了一次区域性强对流天气过程。25日13:28江西上高县出现22m·s-1雷雨大风,其后雷
由于航空航天学科领域在国家综合实力和国家安全中占有十分重要的地位,因此世界各国对航空航天领域的科研投入非常大,有大量学术研究成果报道。而从文献计量的角度对国际航空
探究性思维是生物学核心素养的重要组成部分,课堂教学中应用思维导图构建课堂思维体系,以生物学实验教学为例,突出实验探究,着力培养学生探究性思维,有利于提高生物学核心素
法人的民事权利能力与民事行为能力同时产生理论,决定了现行法律法规将营业执照的颁发视为企业法人成立的标志,但现行司法实践的发展,同时又将企业法人营业执照被吊销后至其
4台2000t级的反应器全部顺利安装到位,全部用时仅仅为35天。这是多么了不起的工程奇迹!与之相对应的是,新疆乌鲁木齐附近的甘泉堡伊泰新疆能源有限公司项目工地,该项工程的所