论文部分内容阅读
耳语音作为一种特殊的语音,是日常语音交流必不可少的一部分。随着说话人识别技术的日益成熟以及人们对耳语音关注程度的增加,耳语音说话人识别技术在信息服务、司法鉴定等方面正发挥着越来越重要的作用。 耳语音的发音方式异于正常音。它具有以下特征:没有基频;共振峰向高频部分偏移;信噪比较低,易受噪音等污染。因此在耳语音说话人识别系统中,对其进行增强处理以及提取能准确反映其声学特性的特征参数是研究的关键。本论文主要针对这两点进行探讨。 在语音增强方面,由于本文使用的耳语音库是在普通实验室环境下建立的,存在诸多干扰因素,所以在预处理阶段必须进行增强处理。考虑到常用的耳语音增强算法——基于神经网络的语音增强算法以及自适应滤波算法的不足之处,本文选择基于子带功率谱熵的改进谱减法进行增强处理。 在特征提取方面,针对耳语音共振峰的偏移以及人耳对耳语音共振峰敏感区域的改变,本文介绍了几种修正的MFCC参数,并将其应用于耳语音说话人识别实验中。 本文具体工作如下: (1)建立了一个包含31个说话人的小型耳语音库。 (2)分析了不同环境和不同信噪比下含噪耳语音的子带功率谱熵图,证明子带功率谱熵可以较为准确的反映含噪耳语音信号。并采用基于子带功率谱熵的改进谱减法对含噪耳语音进行增强处理,经实验证明此方法增强效果良好。 (3)与正常语音相比,人耳对耳语音共振峰敏感区域发生了改变,因此需要修正传统的MFCC参数。文中介绍了几种通过修改Mel滤波器组得到的修正MFCC特征参数——MFCCM、MFCCExp-Log和耳语音敏感尺度系数(WSSC),并详细介绍了相对谱——感知线性预测(RASTA-PLP)参数。 (4)提取上述特征参数进行基于SVM的耳语音说话人识别实验,实验结果证明,24阶WSSC参数与RASTA-PLP参数的组合可以使识别效果达到最佳。