论文部分内容阅读
近年来,语音自动切分技术成为语音信号处理领域的一个研究热点。由于手工的语音切分方式存在着耗时耗力并且不具有一致切分结果的弊端,为此,寻找一种高效的自动切分方法显得及其重要。
在充分考察目前汉语语音自动切分技术发展现状的基础上,本文着眼于连续语音的自动切分这一难点问题,进行了深入的研究。本文将声韵母作为切分的基本单元,提出了基于层次的自动切分方法,并使用Matlab进行了实现。
基于层次的连续语音自动切分方法包含三层切分,经过研究和对比,每一层选择一个最适合此层的切分方法:第一层是基于信息熵的语音段检测,利用语音信号的信息熵对连续语音进行切分,得到每个逗号分隔开的短句,这层切分只是语音信号一个初步的端点检测,用信息熵足以达到切分要求,并且信息熵在端点检测方面较传统的短时能量和过零率等方法有着更好的鲁棒性;第二层是基于最小相位群延迟函数的音节切分,即对短句切分出每个音节,由于语音信号短时能量的最小相位群延迟函数的波峰对应音节的切分点,所以此方法避免了门限的选择,比选择门限进行切分的方法效果更好;第三层是基于共振峰能量参数的声韵母切分,即将每个音节进行声韵母的分离,采用共振峰能量参数作为声韵母切分标准是因为一个音节的主要能量集中在元音上,而元音的共振峰频率有其特定的范围,共振峰能量对于声韵母具有良好的分辨率。
本文提出的语音自动切分方法主要针对汉语连续语音的切分,将三种不同类型测量量应用在不同的切分阶段,实现汉语从句子到声韵母基元的切分。实验结果表明,本文所使用的方法对于语音切分行之有效,正确率达到94%,具有良好的切分效果。