论文部分内容阅读
电话是最普及的话音通信工具,是各种先进语音技术最大的潜在应用领域。语音识别是基于电话平台的语音应用的一项核心技术。大词汇量连续语音识别技术(LVCSR)在最近十几年取得长足的发展,但当LVCSR系统从基于高质量麦克风的桌面应用移植到电话网络的应用环境时遇到了很多困难。提高电话语音识别鲁棒性是实现其商用化的关键问题。本文针对汉语电话语音识别应用中的技术难点,在以下几个方面作了广泛而深入的研究。
首先,在电话语音识别的环境补偿方面,本文提出一种新的基于矢量分段多项式近似的噪声环境补偿算法动态补偿背景噪声和通道噪声引起的数据失配。并把此算法应用到稳态噪声和非稳态噪声环境。对于稳态噪声环境,在log谱域采用批处理EM(BEM)方法;对于非稳态噪声环境,在倒谱域采用递归EM(REM)方法。这两种方法都是基于最小均方误差估计(MMSE)准则的特征补偿。算法不仅可以针对高质量线性通道(如多数固定市话),同时也可以针对不稳定的非线性带噪通道(如一些长途电路,越洋电路以及无线压缩编码话音等)做出有效的补偿。实验结果表明,提出的VPP环境补偿算法明显优于传统的特征补偿算法。
其次,在电话语音声学建模方面,本文详述了国际上常用的两种声学建模方法,合并聚类(AGG)和决策树(TB)聚类,分析了它们的优点和缺点,并进行相应的改进,然后利用它们各自的优点,提出组合声学建模算法:利用数据驱动的聚类AGG得到精确的模型;通过规则驱动的聚类TB解决训练中未知的模型。另外还研究了决策树分裂时最大似然准则和区分性准则的性能差异。大词量连续语音识别实验结果表明,和单一的决策树聚类算法比较,提出的组合聚类算法对识别率有明显的提高。
最后,在电话语音识别的自适应方面,本文详细分析了国际上通用的各种电话语音识别系统的自适应算法的优点和缺点。提出基于先验知识和目标驱动的GJMAP(GeneralizedJointMaximumaPosterioriAdaptation)算法,通过调节两个惩罚因子控制先验知识和自适应数据之间的权重关系,把MAP、MLLR和JMAP统一到同一理论框架下。基于先验知识和目标驱动主要是指回归树的定义,回归树根据先验的语音学知识和自适应数据的多少动态决定,以自适应数据的似然概率增加为目标。在大词汇量连续语音识别有监督方式下,提出的GJMAP算法和传统的方法比较识别率有显著的改善。