基于深度学习的语音合成技术研究及应用

来源 :中北大学 | 被引量 : 0次 | 上传用户:herewe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成(Speech Sythesis)是人机交互系统的关键技术之一。作为语音领域的重要研究方向,语音合成技术在智能导航、机器人、智能阅读以及智慧旅游等领域具有广阔的应用前景。语音合成的研究起源于18至19世纪,从机械式、电子式发展到基于单元拼接、统计参数的语音合成。近年来,在机器学习领域中基于深度学习的研究方法得到了迅速发展,语音合成技术也在此基础上得到了显著的提升,端到端语音合成方法应运而生,这种方法的优点是模型可以简单的学习输入文本和目标语音之间的对应关系,而无需提前提取潜在特征。端到端语音合成系统直接输入文本输出语音,表现出很好的合成效果。目前端到端语音合成系统中通常将神经网络声码器作为一个语音合成后端的模块,神经网络声码器比传统滤波声码器更好的重构语音中的相位信息,实现高质量的合成语音。但是,其通过神经网络建模语音采样过程来生成语音,复杂度太高,合成语音速度缓慢。为了解决上述问题,本文提出一种基于线性预测编码网络(Linear Predictive Coding Network,LPCNet)模型的语音合成方法。首先将中文带调拼音序列作为输入,然后通过引入self attention(自注意力)机制的Seq2Seq(Sequence to sequence)特征预测网络生成对应语音的梅尔声谱图,最后使用LPCNet模型将梅尔声谱图还原为语音。实验结果表明,合成语音的质量优于参数式语音合成模型和采用传统声码器的Seq2Seq语音合成模型,是一种优良的语音合成方法。另外,将该方法应用到山西大同方言的语音合成上,在方言语音合成方面做了研究。收集并建立了规范的大同方言语音数据集,并对其做了预处理和注音标注。为了解决由于大同方言数据量较少而造成合成语音质量较差的问题,采用说话人自适应的训练方式有效解决了该问题,最后实现了针对大同方言的语音合成。
其他文献
为保证施工建设用电的安全性,电力企业需要对施工的状况加以控制,提高输配电工程建设期间的整体质量和水平,才能够保证施工建设用电期间的安全性。而且用电的安全性能够保证
【正】教师授完一节课期望学生得到什么,学生上完一节数学课能获得什么,这大概就是教师备课时设定的教学目标.在教师的教案上都会醒目地写着关于知识技能、能力方法与情感态
近年来,我国的工程建设越来越多。工程建设中,造价至关重要,是建筑市场运行的核心。作为一项综合性工程,工程造价管理涉及很多方面,造价备受各建设参与方关注,尽可能降低项目
1972年,Gery等学者观察到,在人类外周血单个核细胞和小鼠脾细胞的培养上清中存在的一种生物学活性因子,具有刺激胸腺细胞增生的作用。作者把这一因子称为淋巴细胞激活因子(L
在变电站正常运营过程中直流系统会对整个变电站的电能传输情况起到关键的保障作用,是整个变电站稳定运行的前提条件,但是如果变电站的直流系统和大地进行接触将会造成整体绝
目的:回顾性分析86例胆道蛔虫症患者的诊疗过程,探讨胆道蛔虫症的诊疗方法。方法:首先予以中药乌梅汤加肠虫清口服,高压氧治疗,未能成功者施以十二指肠镜检查结合ERCP方法治疗,二者
杨羲是东晋时期的著名道士,现存诗歌84首。在魏晋诗坛上,杨羲诗歌占有比较重要的地位。本文将立足于文学本位,结合宗教学、社会学方面的相关研究成果,对杨羲诗歌进行较为全面
语文习作能力是反映学生综合文化素质水平的表现,锻炼学生的写好作文,不仅仅能提高语文成绩,主要还是通过平时积累生活经验,发挥大胆的想象力和创造力,锻炼学生大脑的思维活
当前,化石资源与人类社会活动息息相关,化石资源的大量利用导致了温室效应和环境污染问题,生物质是唯一可持续提供有机碳资源的化学物质。乙酰丙酸(Levulinic acid,LA)是生物
《初中数学课程标准》规定数学是人们对客观世界定性把握和定量刻画、逐渐抽象概括、形成方法和理论,并进行广泛应用的过程.简单地说数学是一个过程,但是平常教学中,教师很少使用