基于统计模型与发音错误检测的语音合成方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:liliqqqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十年来,随着参数分析合成器性能的不断提升以及统计建模方法的日益成熟,基于统计模型的统计建模方法以及基于统计模型的拼接语音合成方法逐渐发展起来。其中,基于隐马尔科夫模型(HMM)的参数合成系统以及基于HMM模型的拼接语音合成方法被越来越多的研究人员关注起来。相比传统的单元挑选拼接语音合成方法,基于HMM的参数合成方法具有构建速度快,可懂度、流畅度高,需要的存贮空间小,音色等调整灵活等特点。基于HMM模型的拼接语音合成方法最近成为研究的热点,与传统的单元挑选和拼接合成语音方法相比,基于HMM模型的拼接语音合成语音方法利用统计模型的似然值或者后验概率作为指导模型挑选的依据,提高了单元挑选的准确性,减少了拼接语音合成中不连续的现象。但是HMM参数合成系统也有自身的缺点。由于采用最大似然准则或者最小生成误差等准则由统计模型生成声学参数,再由语音声学参数通过语音合成器合成语音,其合成语音的自然度与拼接合成系统的合成语音相比有一定的差距,不如自然语音清晰。这主要由三方面的原因造成:(1)语音分析/合成器的音质损失;(2)HMM统计建模的精确度不够;(3)统计模型的过于平均化。此外,由于如今对合成语音音质和自然度的评价标准主要是基于主观的MOS(Mean Opinion Score)得分,但是现今的基于统计模型的参数合成方法和基于代价的拼接合成方法都没有直接将人的主观听感判断作为语音合成系统构建的依据,加入到语音系统的构建过程中。本文针对现有HMM参数合成系统建模精确度不够的问题,提出了对HMM参数合成系统音素时长模型进行满方差建模的方法。并且对频谱声学模型的聚类过程提出了基于最小交叉生成误差的优化方法。针对现有的语音合成方法没有直接引入人的主观听感作为准则的问题,利用机器辅助语言学习中发音错误检测的方法,提出了基于发音错误检测的语音合成方法,将人主观判断引入语音合成的方法中。整个文章安排如下:第一章是绪论,对现今的基于HMM统计模型的参数语音合成方法作了介绍。包括基本原理,框架,优点以及不足。并且介绍了HMM参数合成方法最近的改进。第二章介绍了对语音合成中的音素时长进行满方差建模的方法。由于在传统的HMM语音合成方法中,对音素时长模型建模采用对角方差HMM模型,在模型训练以及时长参数生成时没有考虑音素时长HMM状态之间的联系。本文针对这项不足提出了用满方差HMM模型对语音音素的时长进行建模的方法,包括模型聚类以及参数生成的方法。实验证明,与对角方差HMM模型相比,时长满方差建模提高了合成语音时长的自然度。第三章针对传统参数合成方法中对频谱参数统计模型上下文聚类不精确的问题提出了基于最小交叉生成误差的决策树聚类优化方法。针对传统的基于MDL(最小描述距离)准则的统计模型上下文相关决策树聚类不够精确的问题,本文结合交叉验证以及最小生成误差准则,提出了最小交叉生成误差的准则,提出了分两步对决策树模型聚类的规模进行优化的方法。实验证明经过优化后的参数合成系统的合成语音在自然度和音质上有提升。在第四章中,由于现阶段的合成语音方法没有直接引入人的主观听感判断,本文首次通过结合发音错误检测的方法将人的主观听感引入到语音合成的方法中,提出了基于发音错误检测的语音合成方法。在本章中,我们首先介绍了传统机器辅助学习方法的基本原理,阐释了将人对合成语音的主观听感评判反馈到合成语音系统构建过程的必要性。并且结合机器辅助语言学习中发音错误检测的方法依次提出了合成语音音库标注自动错误检测方法,合成语音发音错误检测方法,以及基于发音错误检测的语音合成方法。穿插介绍了支持向量机(SVM)以及核Fisher区分性因子(KFD)分析的原理。主观和客观实验证明,合成语音音库标注自动错误检测方法能有效的减少合成语音音库中的标注错误。合成语音发音错误检测方法能在一定程度上检测合成语音中的发音错误。基于发音错误检测的语音合成方法的合成语音中的发音错误更少,与传统方法相比在整体自然度上有提升。第五章介绍了Blizzard Challenge语音合成比赛。Blizzard Challenge语音合成比赛是国际性的英文语音合成评测。科大讯飞实验室每年都会参加。本章详细介绍了Blizzard Challenge 2009年的比赛的各个评测子任务,系统搭建,以及我在各次比赛中所做的工作。最后介绍了实验室在09年Blizzard Challenge比赛中各项任务的评测结果。第六章是全文的总结,介绍了本文的创新点,以及今后的研究计划。
其他文献
无线网络控制系统利用无线通信网络将传感器、控制器和执行器连接起来,实现反馈控制。利用无线通信网络能实现完全的移动操作,柔性安装和快速配置,同时还能减少维护成本,因此
随着我国经济的发展与社会的进步,推动了我国教育体制的改革,在新课改背景下,课堂教育教学不再是单纯的传授知识,更多地是培养学生的认知能力和综合素质。数学作为一门逻辑性
学校不仅仅是传授书本知识的场所,更是学生品德的培养基地。班主任作为学校德育工作的实施者之一,在点滴的班级管理中,注意发挥班会的强大教育功能进行德育培养尤为重要。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
随着李开复跳槽事件的一波三折,Google、微软和李开复成为近段被人们关注的三个核心关键词。这场看似简单的“挖角”,伴随着此前微软频频有不少技术人员跳槽到Google,人们不禁要
脊波导作为微波通信器件广泛应用于微波传输,空间技术、电磁兼容与电子对抗等领域。随着我国铁路信息化和现代化的发展,由脊波导构成的微波器件被广泛应用于铁路交通信息系统
移动通信的发展对通信速率和服务质量(QoS)提出了更高的要求。具有高频谱利用率和高性能的通信技术是下一代移动通信系统重要的研究目标之一。多输入多输出(MIMO)技术在不额
目的观察血脂康短期治疗对胆固醇水平正常的慢性心力衰竭患者血清肿瘤坏死因子(TNF—α)和肱动脉内皮功能的影响。方法48例慢性心力衰竭患者(NYHA分级Ⅱ~IV级)随机分成血脂康治疗
[摘 要:在经济发展迅速的时代,为更好的顺应各个行业对于所需人才的更高要求,以促进经济社会的更高层次的发展,素质教育理念得到迅速推广,在各个学科的教学过程中,教师逐渐弱化应试教育理念所带来的影响,而更加注重对于学生各个方面尤其是综合素质方面的能力的培养,逻辑思维能力则是这其中的培养重点之一。高中语文作为最重要的语言学科之一,在学生的学习生涯中占据着十分重要的地位,并且在这一课程的教学中培养学生的逻
目的探讨局部应用骨保护素(OPG)对牙移动影响。方法选用10周龄雄性SD(Spargue-Dewley)大鼠80只,实验组和对照组各40只。用40g力的拉簧牵引右上颌第1磨牙移向近中。将重组人骨保护