论文部分内容阅读
随着多媒体信息技术的快速发展,互联网中的语音资源呈现出了爆炸式地增长,因此正确的处理这些语音用以分类和识别具有重要的意义。说话人识别又称为声纹识别,是一种非常重要的生物特征识别技术,已经取得许多重要的成果,有着非常广阔的应用前景。现有的说话人识别系统在纯净语音下的效果很好,但是在实际应用中,会受到各种因素的影响,系统性能大幅下降。因此如何提高说话人识别系统的鲁棒性是研究的重点和难点。 本文在分析和总结前人研究的基础上,针对现有的说话人识别系统鲁棒性不足的问题,作了如下内容研究: (1)在信号域中,提出了一种基于理想二进制掩膜和稀疏编码的语音增强算法,并且通过分析增强后语音信号的语音感受质量评估(PESQ)与传统算法进行了对比。对比证明,该算法对带噪语音具有很好的增强效果; (2)在特征域中,引入了特征规整、MVA特征后处理算法等在倒谱域进行信道补偿并抑制噪声。并且针对传统特征参数,如梅尔频率倒谱系数(MFCC)鲁棒性不足的问题,提出了改进的能量规整倒谱系数(IPNCC)和改进的Gammatone滤波倒谱系数(IGFCC),通过实验表明,这两种特征均可大幅度提升系统的抗噪性能,尤其是在信噪比低于10dB的情况下,鲁棒性具有更大的提升;而在实时率上的实验结果表明,IGFCC相对于GFCC实时率降低21.79%,虽有一定的降低,仍可满足实时性要求。IPNCC相对MFCC实时率降低53.76%,更适合离线识别; (3)在模型域中,首先通过实验对比了高斯混合模型-通用背景模型(GMM-UBM)与i-vector模型的性能,得出i-vector的识别等错误率要比GMM-UBM低0.5%。然后提出了利用迭代自适应算法重新估计i-vector模型中总体变化子空间矩阵T的方法。通过总体变化子空间T在测试数据集上的迭代自适应训练,使提取到的测试说话人i-vector矢量更加的准确。 最后对整个研究工作进行总结,指出本文算法的局限和不足之处,指明下一步工作方向。