论文部分内容阅读
近年来非特定人的语音识别系统已经取得了令人鼓舞的性能。但是在实际应用时,由于环境和说话人的改变导致了训练和测试条件的不匹配,使得系统的识别性能显著下降。语音识别要走向实用化,就必须克服环境和说话人对系统的影响,因此语音自适应技术有着非常重要的意义。 本文以说话人自适应技术作为研究对象,分别从说话人归一化、模型:参数自适应和说话人聚类,即特征提取、模型调整和集合理论三个不同的角度对说话人自适应技术进行了详细地研究。说话人归一化包括倒谱均值归一化(CMN)和声道长度归一化(VTLN)。实验证明CMN方法简单易行,不仅能减少不同说话人间的差异,而且能有效地消除信道畸变的影响。VTLN方法中采用估计平均第三共振峰来计算频率折叠因子,并且分别利用线性、非线性和双线性变换来完成频率折叠,实验中将成年女性的特征归一到成年男性特征下,然后用男性模板识别女性测试数据,关键词检出率提高了12.59%以上。在模型参数自适应中,本文结合最大后验概率(MAP)和最大似然线性回归(MLLR)算法,在建立二叉树回归类的基础上,构建了结构化自适应算法,该算法有机地将MAP和MLLR算法结合起来,发挥了各自的优点。此外,本文还重点介绍了基于GMM的说话人聚类算法,该算法聚类过程需要的训练数据少,聚类速度快。同时对计算高斯混合模型间的距离做了深入的研究,提出了两种新的模型间距离度量方法——混合加权距离度量和概率距离度量。这两种度量方法计算简单,实验效果非常好。在系统实现的过程中,文中将上面提到的三种说话人自适应技术有机地结合起来,构建了稳定的自适应模块;另外分別应用了噪声抑制算法、话音激活技术和基于支持向量机的拒识算法增强了关键词检出系统的鲁棒性。最后给出了本文的结论和进一步研究的方向。