论文部分内容阅读
语音合成技术应用于嵌入式设备更方便于人在日常生活中的做事效率,如基于语音处理的智能家电等。由于嵌入式设备内存空间和处理器速度的限制,较复杂的语音合成算法应用到嵌入式设备上达不到实时处理的语音合成效果。而且大部分设备只能合成单一的语音信息。针对以上的不足,本文将基于隐Markov模型(Hidden Markov Model,HMM)的统计参数语音合成技术应用到嵌入式设备中。因基于HMM的统计参数语音合成方法是一种参数化语音合成方法,后端合成语音对语料库的依赖性不大,前端利用训练语料库训练获得相应的HMM模型库即可合成语音,且模型库很小,适合应用于嵌入式设备中。本文选用的硬件设备为飞凌OK6410开发板,其是基于ARM11的S3C6410处理器,最终在硬件上实现语音的合成。本文的主要工作和创新为: 1.完成了统计参数语音合成的声学模型训练。在PC服务器上搭建了基于HMM的统计参数语音合成系统框架,利用准备好的训练语料库,训练获得语音合成基元对应的上下文相关的HMM声学模型,包括谱参数模型、基频模型、时长模型和聚类后的决策树等。以上模型下载到开发板的FLASH中,供后端语音合成使用。 2.对语音合成后端的各部分算法和声学模型进行了硬件移植。首先在硬件开发板上建立Linux操作系统,然后移植了文本分析模块、参数生成模块、Mel对数谱估计(Mel Log Spectrum Approximation,MLSA)合成滤波器模块。其中文本分析模块是对输入的文本进行处理,得到待合成文本的标注文件。此模块单独封装成库文件,供后续的参数生成模块调用。在参数生成模块,首先根据提供的标注文件,利用决策树得到每个合成基元对应的上下文相关声学模型,然后将上下文相关声学模型组合成语句的声学模型,最后利用参数生成算法得到对应的激励参数对数基频和谱参数广义Mel倒谱参数(Mel Generalized Coefficients,MGC),最后将激励参数和谱参数送入到MLSA合成滤波器中合成出语音。 3.对系统进行了测评。主观评测和客观评测表明,本文开发的嵌入式设备上的语音合成系统能够实时合成较高音质的合成语音。