论文部分内容阅读
说话人识别技术被认为是最自然的生物认证技术,它是一项根据语音中反映的说话人生理和行为特征的语音参数,自动识别说话人身份的技术。目前,说话人识别的主流特征往往只反映了说话人的声道频率特性,而忽略了声门的振动信息,以及声门振动对于声道的潜在影响。在详细分析说话人识别的主要特点和最新进展,特别是基于声门特征的说话人识别研究现状的基础上,本文针对如何更好的在说话人识别中利用声门特征进行了大量的尝试,提出了相关的模型和算法。本文的主要工作集中在以下三个方面: 第一,针对声门和声道之间的相关性,提出了消除声门振动对说话人倒谱特征影响的模型和补偿算法。我们认为未受到声门振动影响的倒谱特征更具有说话人区分性,并且在说话人识别中同时使用长时(long-term)和短时(short-term)的声门特征,得到“补偿”过的倒谱特征。算法在理想环境下提高了说话人识别系统的性能。另外,鉴于声门特征的相对鲁棒性,我们将该倒谱补偿算法推广到复杂多通道的环境中,在303人的SRMC库上取得了令人满意的效果。 第二,针对声门和声道在短时(short-term)上存在相互依赖的关系,我们在模型层次上提出了利用该相关性的算法——并行高斯混合模型(Parallel GMMs)。基于声门特征和声道特征独立的假设,传统的说话人模型往往忽略了由此可能带来的说话人自身(intra-speaker)距离对于系统区分度的影响。与传统的模型不同,并行高斯混合模型将短时声门特征和声道特征进行联合利用,在具有声门特征的先验知识的前提下,用概率统计模型来模型化这种关系,从而具有更优良的性能。 第三,提出了在噪音环境下利用声门特征的补偿方法——基于声门特征的倒谱平均减(GIBCMS)。背景噪音以及通道的存在,使得训练环境和测试环境发生失配,导致说话人识别系统性能的急剧下降;倒谱平均减(CMS)是一种用来消除语音噪音/通道失真的标准化技术。本文提出的GIBCMS算法考虑到声门特征对于噪音/通道的相对鲁棒性,将其作为对语音信号进行非线性划分的标准,用于通道的非线性建模;在没有先验的通道频率响应知识的情况下,大大提高了倒谱平均减技术消除噪音/通道失真的准确性。该算法在SRMC库的各个通道上,性能都有所提高;而在信噪比为5dB的YOHO库上,识别率提高了约18%,明显优于其他倒谱平均减算法。 本文得到以下基金资助:国家自然科学基金(6027305)、浙江省自然科学基金青年科技人才培养专项基金(RC01058)、浙江省自然科学基金(M603229)、博士点专项基金(20020335025)。