论文部分内容阅读
说话人识别技术随着信息技术与模式识别技术的不断发展和我们的日常生活越发变得息息相关。尽管在实验室环境下,目前很多说话人识别系统都表现出了喜人的性能,但应用到实际中,它们的表现却很难令人满意。稳健的说话人识别技术研究就是试图解决如何在实际环境下提高系统识别性能的问题。本文主要研究了高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)和I-矢量(Identity Vector,I-Vector)两种技术在说话人识别中的应用,并针对其在实际应用中的缺陷分别在稳健的特征提取、有效的信道补偿、简单的得分规整三个方面深入研究并提出相应的改进方法。梅尔频率倒谱参数(Mel Frequency Cepstral Coefficient,MFCC)得益于考虑了人的听觉原理和倒谱特性而具有分类性能优良与易于计算等卓越特点,因此常被用来作为描述说话人个性的特征参数。然而实际环境会导致MFCC分布非高斯化程度加剧。为降低训练与识别时MFCC分布间的差异,本文首先对MFCC进行RASTA滤波以降低卷积噪声和不同信道的影响,为去除由调制转换引起的卷积噪声对其进行倒谱均值减(Cepstral Mean Subtraction,CMS),再利用特征弯折重构每一维MFCC特征使其服从一个统一的分布。此外,结合MFCC差分系数以更好地描述帧与帧之间的联系。在基于GMM-UBM的打分阶段,对得分采用结合的规整技术进行归一化,不仅在一定程度上提高了系统的性能而且易于设定统一的判决阈值。目前,说话人识别发展所遇到的瓶颈就是如何克服训练和测试语音之间的信道变化。针对此问题,本文选择概率线性鉴别分析对I-Vector进行信道补偿。此外,本文在在首先对I-Vector空间进行方差谱规整以降低理想模型与实际模型之间的差异,在打分阶段提出一种简单的得分规整方法来规避由于质量差的语音所造成说话人被漏检的风险。最后针对不同的需求设计不同的方案并付诸于实验证实了本文所提出的方法是行之有效的。