中文语音合成系统选音方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lxp3754
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文从选音的角度,针对拼接式中文语音合成系统,研究了提高合成语音自然度的方法和措施.文中分别从基频曲线、能量曲线以及音库音质等方面出发,根据实际采集的语音音库特点提出了相应的选音方法,达到提高合成语音自然度的目的.在基频曲线控制方面,根据系统语音音库的统计结果,提出相邻拼接字对应基频曲线间三类不同的约束条件,分别为MTC(More Than Constraint),LTC(Less Than Constraint)和NC(None Constraint).根据相邻拼接字声调的不同组合,以各候选拼接字基频曲线的起始频率和结束频率作为控制参数,定义相应的代价函数.将各候选音对应的实际代价函数值引入选音过程,采用基于全局最优准则的方法选出全局最优候选音.提出相邻拼接字基频曲线约束条件的出发点就是通过在选音时考虑相应的约束条件,选出相对最佳的候选音,从而达到减弱拼接处基频的非正常跃变,以期达到改善合成语音自然度的目的.实际合成试验结果验证了方法的合理性和有效性.在能量曲线控制方面,本文提出将拼接音的边界能量(拼接音的起始能量和结束能量)用于控制候选音边界能量的过渡.为了使拼接音边界能量的控制更有效,文中对边界能量的定义参数作了探讨.在音库音质方面,文中从语音库语音音质的角度出发,提出了提高合成语音自然度的方法.本文提出了基于话音识别的选音方法.根据实际音库的音质特点将音库中所有的音划分为不同的类.在选音时将音质信息引入,根据选音准则,在兼顾其它声学参数的情况下,选出具有相同或相似音质的候选音用于最终语音合成,以期获得具有最好自然度的合成语音.实际合成试验结果显示了方法的有效性.此外,文中对候选音基频均值匹配、协同发音特征属性匹配、音节时长匹配以及重读音在选音中的控制给出了具体的方案.最后,根据各特定的选音控制方法,构建了一套基于代价函数全局最优化选音的文语转换系统.
其他文献
目前,铁水预处理工艺已经成为降低钢中硫含量,生产出高品质钢的关键工序之一。本论文深入调查了铁水炉外预处理工艺的应用现状、各种脱硫方法、脱硫剂的优缺点以及电磁搅拌在冶
冲破界线,开放思维!我们希望看到与数码照片打交道的实验性、创造性的尝试。人们从摄影旅行归来,回到家里。在精疲力尽地跌进沙发之前,也许还会将图片复制到硬盘上。只有一小
研究目的:视网膜前假体通过微电极阵列电刺激视网膜神经节细胞,帮助盲人恢复视力。电刺激时刺激配置方式(刺激电极与回收电极触点组成的方式)的选择对空间分辨率有重要影响;另
电阻抗断层成像(EIT)是一种新型的医学成像技术.它在成像目标表面施加安全的激励电流或电压,同时测量目标表面的电压或电流信号,经图像重构得到成像目标内阻抗或阻抗变化量的
随着社会的进步和科技的发展,传统的钢液脱氧方法已不能满足人们对钢铁纯净度的要求,这就需要在原有的基础上提出新的钢液脱氧方法。近年来原电池脱氧和脱氧体脱氧在脱氧技术上
随着我国土建工程建设规模的不断扩大,工程质量问题也日益突出,其中最为突出的就是混凝土裂缝.混凝土裂缝作为当前工程建设中一种常见问题,一旦混凝土出现裂缝,必然会影响到
因龋齿、楔状缺损等因素引起的牙髓外露,如牙髓状态适宜,多采取保存活髓的疗法.活髓保存能否成功与盖髓剂关系密切.数十年来,人们不断进行着探索,但迄今为止,尚无一种单一盖
本文主要研究了壳聚糖及烷基化壳聚糖/DNA聚电解质复合物的性质以及此复合物介导的基因转染,主要内容包括以下三个方面:以多种手段对壳聚糖及其烷基化衍生物/DNA复合物进行研究
信号发生器广泛的应用于通信及控制的领域.随着技术进步的越来越快.对信号发生器的要求也越来越高,现在最高的带宽都达到160MHZ,已经足够达到混频的要求.最早信号发生器,多是
近三十年来,浸没沉淀法作为常用而经典的技术,用于制备聚合物非对称膜。这种方法所产生膜的形态结构依赖于铸膜液和凝固浴的组成、浓度,以及其它制膜条件,如大气湿度、温度等。由