论文部分内容阅读
说话人识别作为生物识别的一种,因其使用便捷性、非交互式等优势逐渐被人们接受和使用,并成为生物识别领域的研究热点。与文本无关的说话人识别是从语音信号中提取出能反映个人特征的信息,来完成对话者身份的辨认和确认。近年来,随着说话人识别技术的发展,说话人识别逐渐走向社会应用,但实际使用时,由于实际环境的影响、语音采集设备的多样性以及话者语音的长短等影响,说话人识别在识别精度上还存在一些问题。本文针对在实际使用时,测试话者的短语音导致识别精度不高以及环境失配等问题,从补偿的角度,研究了高斯模型、i-vector模型以及高斯线性鉴别性分析(GPLDA)模型。 首先,本文对说话人识别的模型进行了介绍,探讨了说话人识别的预处理和特征提取,利用美尔频率倒谱系数提取话者的特征,针对训练和测试语音不足的问题,构建了GMM-UBM模型,对其原理和建模进行了相关的阐述,并分析了该系统的优缺点,通过实验验证了模型的混合度选取,研究了反映说话人动态和静态特征的美尔频率差分特征对说话人识别的影响,通过实验分析了该系统的性能。 其次,针对GMM-UBM跨信道性能差的特点,在因子分析的基础上,利用身份认证矢量i-vector构建了基于i-vector的说话人确认系统。针对信道失配等问题,利用线性鉴别性分析和类内协方差归一化等补偿手段对系统进行补偿,并分析各补偿方式对系统的影响。同时利用实验分析了i-vector维数对说话人识别系统的影响,并选取了合适的特征维数。 最后,针对目前与文本无关的说话人识别,基于不定长短语音的说话人确认的识别精度低等问题,本文采用高斯线性鉴别行分析(GPLDA)模型,针对将i-vector转化到PLDA模型时,对i-vector进行长度归一化,导致对长度归一化后的i-vector的后端协方差不能进行精确计算,影响系统的鲁棒性。本文提出利用全变量空间的列向量归一化来代替对i-vector的长度归一化,并对提出的方法进行验证和实验,结果表明该方法可以提高系统的鲁棒性,且识别率没有降低。