论文部分内容阅读
说话人自动识别技术在众多需要语音辅助的应用下,已发展成为越来越重要的现代生物认证技术。之前的研究表明,对于训练和测试声学环境一致的高质量语音已可以获得很好的结果。然而现实生活中,往往遇到语料缺失、环境噪声等问题,此时说话人识别系统性能严重下降,为了进一步提高说话人识别的实用性,鲁棒性研究是说话人识别领域至关重要的研究热点。本文针对含噪短语音的鲁棒说话人识别技术进行了研究和探索。为了提高含噪短语音的说话人识别率,本文涉及的补偿算法有多特征融合算法、噪声分离算法、语音帧质量判别算法、识别模型优化和改进。本文的主要工作和创新成果点集中在以下几个方面:(1)针对含噪短语音说话人辨认训练和测试语料不充分的特点,将声源信息与声道信息相结合,弥补在语料信息严重缺失的情况下,只提取单一特征不能充分表达说话人语音特征的缺陷。提取的多种特征的噪声鲁棒性和识别能力不同,可以起到互补的作用,并使用差分进化算法优化特征组合中单一特征的融合系数。实验证明,在相同条件下使用特征组合综合系统(MFCC_D_LPCC+ WOWOR4)+(MFCC_D_LPCC+ WOWOR6)+(MFCC_D_LPCC+ WOWOR8)的含噪短语音说话人识别率比使用单一特征MFCC平均提高13.34%,比使用特征组合MFCC_D_LPCC平均提高10.21%。在各种信噪比环境下,使用差分进化算法优化特征组合中单一特征的融合系数可以使系统的识别率平均提高1.62%。(2)为了降低噪声对说话人识别效果的影响,对噪声进行分离是重要的。提出了基于受限非负矩阵分解(Constrained Non-negative Matrix Factorization,CNMF)的噪声分离算法用于分离环境噪声,该算法首先使用FastICA噪声分离算法对含噪短语音进行分离,将其结果作为NMF(Non-negative Matrix Factorization)的初始值,并在NMF中加入鉴别性限制,以便有效分离噪声。实验证明,相同条件下CNMF分离算法的识别率比随机初始化NMF分离算法的识别率平均提高3.75%。(3)使用CNMF算法对含噪短语音进行噪声分离之后,语音帧仍然不同程度地含有残留噪声,需要对其进一步处理:使用语音帧质量判别算法将语音帧分为高质量类和低质量类,高质量类语音帧直接用于说话人识别,低质量类语音帧进行处理后用于说话人识别,既可以显著降低噪声的影响,又可以充分地利用含噪短语音的有限语料用于说话人识别,有助于提高含噪短语音的说话人识别率。本文分别提出了三种语音帧质量判别算法,分别是改进的信噪比判别算法(Improved SNR Discrimination Algorithm,ISNRDA)、差异检测与判别算法(Differences Detection and Discrimination Dlgorithm,DDADA)、基于 NMF 的信噪比判别算法(NMF-SNR Discrimination Algorithm,NMF-SNRDA)。实验证明,相同条件下使用ISNRDA判别算法相比分离噪声后不进行语音帧质量判别与分类可以平均提高含噪短语音的说话人识别率3.26%,使用DDADA判别算法的识别率相比使用ISNRDA判别算法的识别率平均提高1.71%,使用NMF-SNRDA判别算法的识别率相比使用DDADA判别算法的识别率平均提高1.74%。(4)为了更加精确地对语音帧进行分类,本文提出了双重信息质量判别算法。若两种语音帧质量判别算法同时判定一个语音帧为高质量,则将该语音帧分类为高质量类;若一种语音帧质量判别算法判定一个语音帧为高质量,另一种语音帧质量判别算法判定该语音帧为低质量,则将该语音帧分类为中等质量类;若两种语音帧质量判别算法同时判定一个语音帧为低质量,则将该语音帧分类为低质量类。实验证明,在各种信噪比环境下,本文提出的双重信息质量判别算法与单一判别算法相比,含噪短语音的说话人识别率平均提高2.32%。(5)分类得到的三类语音帧分别与本文构建的GMM-UBM三阶段分类模型相结合,使短语音的有限语料得到更加充分地利用,有效的降低了噪声和语料缺失对含噪短语音说话人识别率的影响。实验数据证明,相同条件下双重信息质量判别算法的各种组合与GMM-UBM三阶段分类模型相结合的含噪短语音说话人识别率比与GMM-UBM两阶段分类模型结合的识别率平均提高2.4%。