基于循环神经网络的中文语音合成研究与应用

来源 :东南大学 | 被引量 : 6次 | 上传用户:pf2858888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人机交互是人工智能时代的重要组成部分。语音合成作为人机交互的关键组成部分之一,已在语音导航、电子导盲、智能语音机器人等生活领域发挥着重要的作用。目前,较为成熟且常用的语音合成技术有波形拼接语音合成技术和统计参数语音合成技术。前者采用大量的自然语言作为合成单元,合成的语音自然度较高但语音库制作周期长、人力成本高且推广性差;后者通常是基于隐马尔可夫模型,其合成的语音质量整体略低。随着深度学习的发展和不断成熟,将深度学习应用到语音合成,提高合成语音的自然度、丰富合成语音的表现力、降低语音合成技术的复杂度等是当前智能语音领域的重要研究内容。现阶段基于深度学习的语音合成技术已成为当前智能语音领域的主流,且总体研究方向为端到端的语音合成。因此,基于循环神经网络的完全端到端的中文语音合成研究具有重要意义和实用价值。论文的主要工作内容如下:(1)针对目前没有数据量较多的单人中文开源语音数据集和没有完全端到端的中文语音合成的现状,设计与实现了从数据集的创建到端到端的中文语音合成模型训练的一整套处理流程。将Tacotron模型推广到中文语音合成,研究了基于Tacotron模型的端到端的中文语音合成。其中,还设计了长时长到短时长的中文语音自动分割方法。并将其运用于数据集的创建,取得了良好的效果。(2)研究与实现了基于Tacotron模型的话者相关语音合成方法,且主要研究了三种不同的拼音形式作为文本序列来训练模型的效果。(3)对于模型合成的语音尾部有噪声或重复发音的情况,提出了一种后处理方式来进行去尾部噪声处理,并取得了良好的效果。(4)研究与实现了基于Tacotron模型的话者无关与自适应训练语音合成方法,且主要研究了三种不同的拼音形式作为文本序列来训练模型的效果。本文研究与实现的基于循环神经网络的完全端到端的中文语音合成方法极大的简化了繁琐的数据集创建过程以及人工特征工程,合成语音的自然度优于目前广泛使用的统计参数语音合成技术。
其他文献
施工测量控制是悬索桥上部结构施工中保证施工质量的关键环节.介绍在润扬大桥悬索桥上部结构安装施工过程中,为达到成桥设计线形,各施工阶段进行的施工控制测量及监控方法.
In this article, the interference between canard and wing is discussed on the basis of wind-tunnel test, with a brief review of the development of aerodynamic c
介绍了崖门大桥施工中应力及温度测量的测量方案以及计算方法,并给出了部分测量结果,最后还对测量工作进行了经验性的总结.
民生问题,是一个既古老又现实的客观存在。在我国发展的不同时期,或同一时期不同发展阶段,民生问题形成的原因不尽相同。改革开放初期,我们面临的民生问题,是在共同贫穷的社会背景
团结就是力量,团结就是大局,团结就是胜利。这是马克思主义的一个基本观点,是我们党成立90多年来得出的一个历史结论。当前,面对世情、国情、党情、社情的深刻变化,面对长期执政、
近几年来,一种140字的微博文字应用,正悄然改变着民间的生活方式和官方的治理方式。本文通过介绍微博的诞生和传播原理、微博区别于传统媒体的传播速度快、覆盖面广、社会动员
从2009年开始我国汽车产销量是世界最多的国家,但目前传统燃油汽车对能源的过度依赖以及对环境的严重污染,迫使我国开始探索以节能和环保为主的新能源汽车可持续发展之路,这为新能源汽车企业以及零部件行业的发展指明了新的方向。在这种背景下,以供应传统燃油汽车零部件为核心业务的TJ公司迎来了产品转型的战略良机,开始开发新能源汽车的热管理系统管路产品,并投资建设一条全新的橡胶管生产线,为公司新能源业务后续可持
介绍了某运河大桥三腹板预应力混凝土连续箱梁底板纵向裂缝的病害情况,对该病害产生的原因进行了分析,并对该类型桥梁的设计及施工提出了改善建议。
暑证取穴特点分析刘立公顾杰指导吴绍德黄羡明(上海市针灸经络研究所200030)图书分类号R224-51关键词穴位暑证文献利用计算机对62本古籍中针灸治疗暑证的内容进行统计,结果表明,共涉及穴位47个,总计
多才玛铅锌矿床位于―三江‖多金属成矿带北段沱沱河铅、锌、铜、银、镉成矿远景区,该区成矿地质信息丰富,但地质工作起步较晚。近年来通过地质勘查工作的不断推进,该带已发