论文部分内容阅读
声纹识别是一项重要的生物认证技术,应用场景广泛。声纹识别的主流方法包括SVM, JFA和i - vector等,它们均以GMM-UBM为基础。除了搜集语料训练目标说话人模型,GMM-UBM方法还需要大量额外的语料进行得分规整,这是声纹识别技术实用化的屏障之一。而现有的端点检测方法一般以短时帧为单位进行,存在着语音切分粒度过细导致计算开销过大的问题。针对这两点不足,本文对说话人确认的流程进行新的探索,主要贡献如下:1.将传统的说话人确认的单数据点假设检验的方法转变为比较检测语音序列在目标说话人模型和测试模型上得分差异的序列测试,对于如何使用测试语音得到测试模型,进行了三方面的尝试,测试语音在UBM上自适应得到的测试模型,测试语音混合注册语音后再UBM上自适应得到测试模型,测试语音在目标说话人模型上自适应得到测试模型。其中以检测语音在目标说话人模型和测试语音在UBM上自适应得到测试模型上得分差异最为明显,探索了以下五种判决方法:得分对偏移量比对阈值、得分对偏移量TOP均值、得分对距离、得分对排序、模型参数区分等,其中以测试得分对偏移量的TOP均值的判决效果最好,其EER在基准方法上有了4.2%的提升。2.相对于传统端检方法以短时帧为处理单位,提出一种仿人类视觉感知的语音端点检测方法。首先提取具有完整文本信息的语音段包络,及其波形形态特征,再对特征聚类后的结果进行投票,去掉噪音段和静音段得到语音段。端检效果良好,VQVAD算法相对最高提升45%,使系统的EER平均下降1.7%,并且具有提取出的每一语音子段仅包含一个目标说话人的优势。3.在前述研究成果的基础上,进一步提出了一种新的说话人跟踪的技术框架。应用波形分段的方法对语音进行分段,使得每个声音段只包含一个说话人,然后对每个声音段进行说话人确认,降低了说话人分割处理的复杂度,加快了检测的速度,使用传统说话人确认方法在MASC合成的数据集上漏检率和错误接收率为18%,而新型说话人确认方法也取得了28%的结果,效果基本令人满意。