论文部分内容阅读
语音识别搜索算法,或称解码算法,是语音识别系统的核心之一,直接决定系统的性能。它利用声学模型、语言模型及更高层的语法语义等知识,在由发音词典构成的搜索空间中寻找最优词序列。解码算法涉及路径的扩展、打分、合并、剪枝等操作,复杂度较高,因此对解码时间具有很重要的影响。但实际上,解码中包括一部分路径扩展在内的很多操作是不必要的,即使执行扩展,生成的新路径也会因为得分过低在剪枝阶段被删除。因此,研究如何利用相关知识减少不必要的解码操作,对于提高识别速度具有很重要的意义。另外,虽然传统解码算法使用的声学模型与语言模型从不同层次刻画了语音学及语言学的一部分规律,但是,单一的信息源对于语音本质的刻画远远不够,而融合了互补的多源信息的识别系统能够有效降低识别错误率。
本论文通过挖掘声学模型及语言模型之外的语音相关知识,并将其用于指导搜索过程,达到或者减少盲目搜索,或者提高搜索准确性的目的,最终改善解码速度及精度。主要工作如下:
1)本研究首先从搜索空间构建及搜索策略的角度分析了当前主流识别系统。然后,我们采用基于词树重入的搜索空间构建方法及基于帧同步的Viterbi束搜索策略,搭建了汉语大词汇量连续语音识别解码系统。作为开展后续研究的实验平台,我们对解码器中采用的路径扩展方法进行了详细描述,并给出了系统在大词汇量连续语音识别任务下的性能。
2)在解码时,根据路径扩展在HMM中发生的位置,可以将扩展划分为HMM内部扩展及HMM之间扩展两种模式。本研究通过分析及实验证明了HMM间扩展比HMM内扩展具有更高的复杂度,并在此基础上提出在语音的分频带能量稳定区域只执行HMM内扩展,而不执行HMM间扩展。结果显示,融合了语音帧的发音稳定性信息的解码系统能够有效降低全部扩展中HMM间扩展的比例,但有效HMM间扩展不会减少,从而不会因限制扩展带来解码错误。实验结果显示,所提算法的解码实时性比基线系统提高22.1%。在相同的解码时间下,相对错误率下降5.24%。
3)为了利用语音帧在声学特征空间中的位置信息,本研究提出一种基于引导概率的语音识别解码算法。我们首先统计了通用背景模型中各高斯成分与音素间的对应关系,得到引导概率,并将之与传统的声学概率和语言模型概率融合。使用引导概率后,解码器更强调对声学特征空间中最有希望的局部进行精细搜索,保留并扩展通过此局部空间的路径,同时弱化不经过此局部空间的路径。之后,本研究从路径得分层次分析了引导概率在扩展及剪枝过程中的作用,并考察了不同的UBM训练及归一化方法、引导概率权重、主高斯数量对系统性能的影响。实验结果显示,基于引导概率的解码算法与基线系统相比,汉字相对错误率下降10.95%。另外,本研究从路径总概率计算的角度重新解释了基于发音稳定段的解码算法,并将其与基于引导概率的解码算法融合,以便于同时利用语音帧的稳定性信息及语音帧在声学特征空间的位置信息。结果显示,融合后的系统性能优于只使用单一信息源的解码系统。
4)本研究采用混合高斯分布之间的距离刻画了不同音素间的相似性,以及音素本身的大小,用于说明说话人、语境等条件发生变化时,音素发音之间互相偏离的程度。我们进一步探索了发音畸变的程度与识别结果中的替代错误率之间的关系,为下一步改进语音识别解码算法提供了新的知识。