高表现力语音声学建模的研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:smxsnjzch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音作为语言的声音表现形式,是人类交流信息最自然、最有效、最方便的手段。人类的语音中不仅包含了语言学信息,同时也包含了人们的感情和情绪等非言语信息。因此,富有表现力的语音合成也日益成为语音合成研究领域的一个热点,兼具理论意义和应用价值。本文录制了中性和10种情感语音数据,采用PAD三维情感模型进行了表现力标注,使用TBL算法实现了韵律结构的预测,利用五度字调模型对音节的基频曲线建模,在此基础上,采用广义回归神经网络(GRNN)建立了中性语音到其它情感语音转换的韵律预测模型,实现了由中性语音向情感语音的转换。论文的主要创新点和工作如下:1.提出了简化的PAD量表,用来标注语音的表现力。实验结果表明,对语音表现力进行标注与评测时,简化的PAD量表能够节省标注时间,提高标注结果的一致性。2.提出了一种新的韵律结构预测特征。根据语法结构和韵律短语之间的关系,将语法树的高度作为预测特征,利用TBL算法实现了韵律短语的预测。3.建立了情感语音音节的五度字调模型。对每种情感语音的音节,利用多项式回归获得五度字调模型参数,对比分析了中性语音和情感语音的语音差别。4.提出了一种基于广义回归神经网络(GRNN)的表现力语音声学特征的建模方法,实现了中性语音到情感语音的转换。该建模方法利用情感语音的情感标注PAD值和语境参数作为输入参数,以情感语音的声学特征作为输出参数。建立的模型能够根据文本的语境参数和情感标注PAD值预测情感语音的声学特征,利用STRAIGHT算法修改中性语音的声学特征,从而获得转换的情感语音。情感主观平均评分(EMOS)实验结果表明,利用这种方法变换出的10种情感语音,其平均EMOS得分为4.0,能够表现出复杂的情感。
其他文献
期刊
在众多模数转换器的结构中,流水线结构是使用最为广泛的一种结构。这种结构的模数转换器可以满足大部分系统对模数转换器的性能指标如精度,速度等的要求。目前,流水线结构模
彩色图像分割在近几年越来越引起了人们的重视,与灰度图像相比,彩色图像不仅包括亮度信息,而且还有更多的有效信息,如色调、饱和度。边缘是图像的一个基本特征,携带了图像中
白细胞介素2(IL2)是一种具有广泛生物活性的细胞因子,它能够有效地提高机体的免疫功能.目前已证实,牛白细胞介素2(Bovine IL2,BoIL2)在牛的多种疾病预防与治疗中具有很好的作
期刊
期刊
第一部分:本实验研究了一种新型的双功能靶向探针(FA-FITC-CathepsinSubstrate-Dabcyl简称FFCD1)用于检测及定位癌症细胞。由于Dabcyl高效的荧光共振能量转移淬灭作用,FFCD1在
期刊
从山西汾阳混交林土壤中分离到一株能在菌核内积累β-胡罗卜素的青霉PT95菌株.该研究通过形态观察和RAPD分析,初步确定了PT95菌株的分类地位以及该菌株和其近缘种的生物系统
期刊