基于发音动作特征的中文语音合成系统研究与实现

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:tobay1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成技术也叫文语转换技术,能够将文字转换成语音的形式输出,是人机交互中必不可少的一部分。在当今的智能音箱、智能家居、车载导航等许多人工智能应用场景中都离不开语音合成技术。基于语料库的波形拼接语音合成方法目前已有较高的可懂度和自然度,但在进一步提高听感质量上仍有待加强,尤其是基元的拼接产生的声音突变现象需要进一步改善,造成声音突变的主要原因是传统的语音合成系统不能使前后基元之间具有足够的协同发音的音联性。因为协同发音是源自于人体发声器官的自然连续运动,所以本文从发音动作的角度进行波形拼接语音合成,所做的工作如下:首先,为了使语料库的基元能充分地涵盖汉语不同协同发音情况下的声音变体,本文基于对汉语协同发音类型的总结,设计并建立了满足变体覆盖率的语料库,并基于研究的协同发音标注方法,使用电磁发音仪(Electro magnetic articulography,EMA)数据对语料库中每一个基元进行发音动作的标注。高质量的语料库也是语音合成的基础。然后,为了得到输入文本对应的体现协同发音特征的发音动作参数,本文构建了隐马尔科夫模型(Hide Markov Model,HMM),使模型输出的发音动作参数具有音联的过渡连续性。能充分反应音联效果的发声动作参数也是下一步基元选择的依据。最后,为了能准确地从语料库里挑选出最佳基元,本文基于代价计算理论设计了适用于发音动作特征的代价计算法,并且将获得的每一个最佳基元经过平滑算法进行处理和拼接,从而使整个语音合成系统输出连接过渡性更好的声音。本文从客观和主观两个角度对合成声音的效果进行评价,并且使用现阶段常用的基于上下文信息的波形拼接语音合成方法作为对照。实验结果显示,基于发音动作特征的波形拼接语音合成方法能使合成语音在基元拼接处的过渡效果更自然,更能满足协同发音的音联要求。
其他文献
随着日益增长的数据处理需求,高效灵活的数字信号处理系统备受青睐。为了降低运算复杂度,减少数据存储量,在处理系统各模块内部往往采用最优化的数据格式和处理速度,由此多速
近年来,多智能体一致性已经引起了控制领域学者的广泛关注和应用,例如:分布式协同控制,自适应辨识,分布式参数估计,编队控制,多智能体优化,以及聚集等。多智能体一致性的控制
经济全球化日益迅猛地发展,带动了企业间激烈的竞争,众多企业为了增强自身的核心竞争力,从而调整企业的经营策略。与此同时,越来越多的企业逐渐意识到整个组织的绩效管理已成为关系到企业能否在激烈的竞争中持续发展的关键因素。作为现代人力资源管理中的一个重要环节,绩效管理与企业的整体战略目标以及员工的关系十分密切,因此,如何根据企业自身的实际情况搭建合理的绩效考核体系成为了当今企业做急迫的工作之一。作为战略绩
学位
4G技术的不断推进与发展使得移动通信已经十分普遍,但在某些偏远地区如边远的沙漠地带、海洋、高山等,仍然难以构建完整的移动网络,这些场合卫星电话被广泛使用。目前,国际上
随着高速铁路的快速发展,列车操作控制系统为高速列车乘客实现“随时随地”通信的呼声越演愈烈。全双工通信技术为快速、安全地提供通信创造了条件。同时,随着全双工通信技术的不断应用,也发现一些有待研究的问题。如用户处于移动状态时,系统将受到多普勒频移的影响。因此,本文系统地研究了多普勒频移对全双工(Full-Duplex,FD)大规模多输入多输出(Multi-input Multi-output,MIMO
在如今信息化时代的背景下,图像已成为一种重要的信息传输介质,其广泛的需求量促使着图像复原技术不断发展。从图像内部相似性这一角度出发,最具代表性的就是非局部均值方法
学位
随着市场经济的日益成熟以及信息时代的到来,橡胶制造品行业的市场竞争也越来越激烈。由于外部环境不断变化,市场竞争得日益激烈,企业不得不从当前的状况出发对自身的经营策略进行调整,此前主要通过竞争实现外延式发展的企业,现在应及时调整为外延和内涵并重式的两条腿走路的发展策略,这样企业才能实现健康、稳定的发展。B橡胶制造公司作为一家专业从事橡塑密封件、汽车橡胶零部件以及各种橡胶制品生产、研发和销售的大型公司
日本《防卫计划大纲》是日本长期防卫政策的基本方针,是其国家最重要的国防文件之一,它规划了自卫队力量建设的总体方案,对日本的安保走向和防卫导向具有一定的指导意义。日