汉藏双语跨语言统计参数语音合成的研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:ltiao9600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,多语种语音信息处理成为了智能语音信息处理中的重要研究方向。其中,由于跨语言的语音合成能够利用同一个语音合成系统合成出不同语言的语音,成为了目前的研究热点。中国是一个少数民族语言和方言众多的国家,跨语言语音合成技术的研究对促进方言和民族语言语音技术的发展有着重要的意义。但是,目前国内外的研究中,并没有一个完整的普通话/民族语言或普通话/方言的多语种语音合成系统。本文选取了汉语普通话和藏语拉萨方言作为研究对象,研究了两种语言在发音上的特点及共性,设计了普通话和藏语通用的标音方案、语音基元的语境信息标注格式以及对声学模型进行决策树聚类的问题集。在此基础上,利用一个多说话人的普通话语料库和一个单说话人的藏语拉萨方言语料库,将说话人自适应训练引入基于隐Markov模型(Hidden Markov Model,HMM)的语音合成方法中,训练获得了一个混合语言的平均音模型;之后,再利用待合成藏语或汉语的少量训练语句,采用说话人自适应变换算法获得藏语或者普通话的说话人相关模型,最终合成出藏语或汉语语音,实现了汉藏双语跨语言语音合成系统。论文的主要工作和创新如下:1.设计了一套面向统计参数语音合成的藏汉双语的机读音标方案。从声母、韵母和声调等方面对藏语和汉语的发音特点做了对比研究,找出了两者在发音上的共性,利用国际通用的机读音标,设计了一套汉藏双语的机读音标,实现了文本到字音的转换。2.设计了一套面向统计参数语音合成的汉藏双语的上下文相关的标注格式。标注格式包括声韵母层、音节层、词层、韵律词层、韵律短语层和语句层6层,用来标注藏语或者汉语语句中的每个声韵母的语境信息。同时,设计了涵盖两种语言语音特色的决策树问题集,用于声学模型的训练过程中对模型的聚类。3.提出了一种利用说话人自适应训练实现汉藏双语跨语言语音合成的方法。利用一个多说话人的普通话语料和一个单说话人的藏语语料,在HMM模型的训练中引入说话人自适应训练,得到一个语言无关的平均音模型;然后采用1个藏语说话人的训练语料或者1个普通话说话人的训练语料,采用说话人自适应训练获得该语言的说话人相关模型,从而利用同一个系统合成出藏语语音或普通话语音。4.实现了一个汉藏双语跨语言语音合成系统,评测了系统合成语音的音质。主观评测和客观评测结果表明,在藏语训练集较少的情况下,本文提出的方法合成的藏语语音的语音质量高于传统的方法。
其他文献
随着Internet技术与多媒体技术的飞速发展,在网络中传输的图像信息越来越多,其安全传输和存储问题得到了人们的高度重视,各种图像加密方法应运而生。与此同时,由于图像数据量
伴随着互联网技术的不断发展,企业要充分把握这次发展机遇,通过大数据的优势来冲破传统管理模式的束缚,加强对人力资源绩效管理方面的改进策略.使人力资源更好的服务企业发展
年度培训计划就是根据培训规划制订的全年运作计划,执行主体应该是企业各个责任部门的需求,目的是为了保证全年培训管理工作及业务工作的质量.当前企业对于年度培训计划都很
本文研究了基于融合的遥感图像分类方法,分别运用D-S证据理论、模糊推理理论和模糊神经网络来实现遥感图像的分类。首先,介绍了一些传统的分类方法,在此基础上引出了基于融合的分类方法;接着,介绍了D-S证据理论的基本原理,并将D-S证据理论运用到分类问题中;然后,介绍了模糊推理的基本过程和相似度的定义,在此基础上提出了一种新的基于相似度模糊推理的分类方法;最后讨论了模糊神经网络的发展,介绍了自适应模糊神
财务报销是事业单位经济管理中的重要内容,但由于报销制度不够完善,使得事业单位财务会计工作成效不够高.家长式财务报销管理具有一定的片面性,不能满足新时期事业单位经济管
计算机断层成像技术(CT,Computed Tomography)被广泛应用于人体组织成像领域,是进行人体医疗诊断的重要手段。CT应用中,图像重建算法的实现是一个关键问题。2002年,Katsevich
本文介绍大数据背景和项目管理定义的基础上提出了大数据时代对项目管理的启示.简单探讨了结合大数据的项目管理创新方法和明确了企业需要关注的几点首要问题.
基于对医院互联网移动支付在收银审核工作中应用的研究,首先,阐述医院互联网移动支付在收银审核工作中应用,具有提升收银效率、提升收银准确性的重要作用.然后,给出医院互联
本文首先介绍了水利工程经济管理的重要性,然后文章紧接着介绍了加强水利工程经济管理的途径与方法,主要内容包括树立经济管理先进理念,转变传统的管理模式;加强水利工程的质