论文部分内容阅读
语音合成(Speech Sythesis)是人机交互系统的关键技术之一。作为语音领域的重要研究方向,语音合成技术在智能导航、机器人、智能阅读以及智慧旅游等领域具有广阔的应用前景。语音合成的研究起源于18至19世纪,从机械式、电子式发展到基于单元拼接、统计参数的语音合成。近年来,在机器学习领域中基于深度学习的研究方法得到了迅速发展,语音合成技术也在此基础上得到了显著的提升,端到端语音合成方法应运而生,这种方法的优点是模型可以简单的学习输入文本和目标语音之间的对应关系,而无需提前提取潜在特征。端到端语音合成系统直接输入文本输出语音,表现出很好的合成效果。目前端到端语音合成系统中通常将神经网络声码器作为一个语音合成后端的模块,神经网络声码器比传统滤波声码器更好的重构语音中的相位信息,实现高质量的合成语音。但是,其通过神经网络建模语音采样过程来生成语音,复杂度太高,合成语音速度缓慢。为了解决上述问题,本文提出一种基于线性预测编码网络(Linear Predictive Coding Network,LPCNet)模型的语音合成方法。首先将中文带调拼音序列作为输入,然后通过引入self attention(自注意力)机制的Seq2Seq(Sequence to sequence)特征预测网络生成对应语音的梅尔声谱图,最后使用LPCNet模型将梅尔声谱图还原为语音。实验结果表明,合成语音的质量优于参数式语音合成模型和采用传统声码器的Seq2Seq语音合成模型,是一种优良的语音合成方法。另外,将该方法应用到山西大同方言的语音合成上,在方言语音合成方面做了研究。收集并建立了规范的大同方言语音数据集,并对其做了预处理和注音标注。为了解决由于大同方言数据量较少而造成合成语音质量较差的问题,采用说话人自适应的训练方式有效解决了该问题,最后实现了针对大同方言的语音合成。