论文部分内容阅读
随着说话人身份识别研究的深入,提高实用环境下文本无关说话人识别系统性能鲁棒性已成为当前研究的重点。以高斯混合模型(Gaussian Mixture Model,GMM)为代表的概率统计模型由于可以有效的描述语音特征参数数据集分布,成为文本无关说话人识别领域的主流技术,但基于概率统计模型的说话人识别系统的性能有赖于语音参数数据集,尤其是训练与测试特征数据集的匹配程度。然而,实用环境下由于背景噪声的不同影响、传输通道的多样性,使得测试特征数据集与训练集失配,而导致了系统性能的下降。本文主要研究减少测试特征集与训练特征集间的失配程度以提高系统性能鲁棒性的方法,根据环境对语音中不同时频段污染程度不同,以及语音信号本身的冗余性,深入研究语音特征参数中受污染严重的缺失特征的筛选和重建方法。主要研究内容如下:1.给出了一种基于谱减法语音增强的说话人识别方法,采用改进的谱减法,直接由增强后的语音功率谱提取MFCC参数。在不同信噪比的白噪声和F16战斗机噪声环境的实验表明,谱减法可以在一定程度上提高噪声环境下系统的识别性能。分析并指出了语音增强方法很难得到信号在受噪声污染严重的频段的准确估计,这是限制语音增强方法进一步提高系统鲁棒性的重要原因。2.根据噪声对语音中不同时频段的影响程度不同,及语音信号本身含有很多冗余信息,给出了一种基于子带信噪比阈值的缺失特征边缘化说话人识别方法,利用子带信噪比将Mel子带特征的各维分量分为可靠特征与缺失特征,只用可靠特征对话者模型计算边缘化输出概率评分。由于将受污染严重的缺失特征丢弃,使系统噪声鲁棒性得到较大提高。在此基础上,又给出了一种基于谱减和缺失特征边缘化相结合的说话人识别方法,使系统性能得到进一步提高。3.给出了基于Mel子带相关性进行缺失特征重建的方法,根据同一个语音特征类的协方差关系,由说话人可靠特征进行缺失特征重建。提出了两种基于统计分布模型的特征重建方法:基于聚类单高斯模型的缺失特征重建和基于GMM模型的缺失特征重建方法,前一个方法是先聚类,再对子集特征进行高斯分布描述,而后一种方法则将两者合并一起做,从而能更精细地描述出整个特征集的统计分布,以及各个分布间的关系。实验表明,与缺失特征边缘化方法相比,缺失特征重建方法进一步提高了说话人识别系统在噪声环境下的性能。4.分析发现了基音频率会影响MFCC参数对声道特性的准确描述,进而影响说话人识别系统的性能;由此提出了一种基于平滑幅度谱的SMFCC参数(Smoothing MFCC),实验表明,SMFCC参数性能在整体上优于MFCC参数,在女性说话人数据集上识别性能提高尤其明显,并且具有更好的时间鲁棒性。