论文部分内容阅读
语音信号可以传递出有关于说话人的多种信息,如语言信息(说话的内容),说话者信息(身份,情感,生理特征等),环境信息(背景,信道等)等。说话人识别是指,通过从说话人提供的语音信号中提取出中能反映其身份特征的矢量序列来识别说话人的技术。近年来,说话人识别的性能在实验室环境下已经相当高,但在实际应用中,由于背景噪声和信道畸变等影响会导致其识别率大大下降。为了将说话人识别技术推广到实际应用环境中,解决噪声问题对系统识别率的影响,本文在梅尔频率倒谱(MFCC)特征提取和矢量量化(VQ)建模的基础上,设计了噪声环境下的鲁棒性说话人识别系统,并分别从系统的特征空间和模型空间两个方面切入,对实际环境中的抗噪声鲁棒性算法做了深入的研究。现有的许多单一抗噪技术,如信号空间的语音增强算法、特征空间的特征调整算法、模型空间的噪声补偿算法等,都需要先根据信噪比估计环境噪声,然后再对特定噪声做去噪或补偿处理。当环境中噪声已知或只存在平稳噪声时,这类方法能够达到不错的降噪效果,比如基于电话信道的说话人识别系统。但当说话人识别技术应用到更复杂的环境中时,噪声往往是未知的,且会随着时间的变化而发生变化,这就会导致系统识别率严重下降。为了解决这个问题,本文研究了两种抗噪声算法,针对环境噪声引起的信号特征被破坏和训练与识别环境失配的问题给出了解决方案。首先,在特征空间研究了一种基于语音增强和特征缺失结合的鲁棒性算法,通过从增强信号中获得的重要信息自动生成缺失的特征掩模,用于检测可靠的说话人特征。其中,为了增强输入的说话人语音信号,并进一步为计算缺失特征掩模提供有用的信息,本文采用最佳修改的对数频谱幅度(OM-LSA)语音估计与最小控制递归平均(MCRA)噪声估计结合的鲁棒性增强算法。MCRA估计噪声功率谱可以做到计算有效且偏差较小,因此对于低输入信噪比和存在潜在加性噪声的情况是鲁棒的,其最大的优点在于能够快速跟踪噪声谱中的突变。OM-LSA估计器也表现出良好的噪声抑制特性,去除噪声的同时仍然保留了弱语音分量。此外,为了解决噪声引起的训练与识别环境失配的问题,在模型空间引入了并行模型合并(PMC)算法,通过在识别阶段将估计的加性噪声和卷积噪声叠加到纯净语音训练的说话人模型上的方法,达到解决上述问题的目的。本文在白噪声和Babble噪声环境下,对说话人识别系统中所采用的鲁棒性算法分别进行测试得到结果:(1)将OM-LSA与MCRA结合的增强算法与仅用OM-LSA处理带噪语音相比,其PESQ值平均分别提高了0.335和0.419;(2)增强和特征缺失结合的算法在低信噪比和非平稳噪声环境下表现优越;(3)模型空间引入了PMC算法后,在30dB输入信噪比的情况下系统可以实现100%的识别率,其中PMC算法对系统识别率贡献了10.9%的正确率。