论文部分内容阅读
语音中的韵律对人们理解语义具有非常重要的作用,尤其对于汉语这种典型的声调语言来说,韵律中的声调更具有区分语义的功能。然而当前的汉语语音识别技术并没有充分发挥韵律信息的作用。本文主要针对如何将声调信息应用于汉语大词汇量连续语音识别展开研究,具体解决声调特征的提取、声调的建模和声调信息与语音识别相结合的问题,主要工作及贡献包括以下几点:
1)人在讲话前会根据讲话内容对发音过程进行预先规划。受此启发,本文提出了基于句子假设进行韵律推断和声调模型打分的框架,即基于一遍识别输出的句子假设,推断其声调,根据推断与识别的一致程度对句子假设进行二遍打分,从而提高识别系统的最终识别率。
2)在实现过程中,改变了过去方法只利用基频、能量等语音参数作为声调模型特征的做法,在广泛分析了影响声调在连续语流中变化的各种因素后,本系统选择了与声调表现最相关的几种语言学特征结合语音特征共同作为韵律推断的依据。
3)采用条件随机场对声调信息进行建模。与支撑向量机、神经网络、决策树等方法相比,基于条件随机场的建模方法能够融合各种特征,对特征的处理也十分灵活,而且更适合语音识别这类序列标注任务。
4)定义了基频检测的“可靠度”,并将可靠度与二遍解码阶段声调得分的权重相联系,避免了不可靠的基频特征影响声调模型的性能,使系统的识别率进一步得到提高。
实验结果表明,本文提出的声调信息建模和应用方法,使汉语大词汇量连续语音识别系统的字错误率相对下降了7.62%。