论文部分内容阅读
说话人识别是语音信号处理领域重要的研究方向,主要目的是在语音中自动获取说话人身份,在银行、公安系统和智能家居等领域存在广泛应用。当前主流算法基于概率模型,在背景语料充足和信道单一情况下,GMM-UBM模型已经取得良好的性能;但在实际应用中,噪声和信道失配使该方法性能急剧下降,i-vector方法的提出一定程度上解决了这些问题。以上算法都以GMM-UBM为基础,在NIST评测中已经取得了很好的效果,但还有一些问题没有得到解决,主要体现为:一方面,通用背景说话人模型的训练需要大量计算资源和数据,使得方法难以在新的环境下快速部署;另一方面,对于通用背景模型训练的理论依据没有进一步的研究,仅通过采集大量不同说话人的数据来尽可能填充特征空间,对数据的采集工作造成了一定的挑战。本文围绕着文本无关说话人确认,以及通用背景说话人模型语料选择问题进行研究,主要工作以及创新如下:第一,分别构建了基于GMM-UBM模型和i-vector/PLDA方法的说话人确认系统。详细介绍了特征的预处理、UBM模型的训练方法、MAP自适应的过程、i-vector全局差异矩阵的提取方法以及基于PLDA的打分方法。探讨了 GMM模型阶数、MFCC特征维度等对于系统性能的影响。实验结果表明,本文构建的系统已经达到主流开源实现的性能。第二,提出了基于GMM超向量聚类的支撑说话人选择算法。支撑说话人选择算法的核心思路是使选择出的说话人语音特征分布差异尽可能大,以覆盖整个特征空间。因此,本文提出用每个背景说话人的数据分别训练GMM模型,用GMM超向量来近似其特征分布,最后用聚类算法(如K-means等)找出相互之间距离最大的说话人集合。实验表明,该算法在AISHELL、MASC和TIMIT三个数据集上分别只需要使用基准说话人语料的8.8%、8.6%和4.3%即可构建出达到基线性能的UBM,性能优于Hansen等人提出的算法,进一步降低了构建UBM所需的训练时间和计算资源。第三,实现了基于GMM托肯配比的背景说话人语料选择算法。UBM数据选择的另一个思路是直接在帧级层面进行筛选,目前主流算法是Hansen等人提出的IFS(Intelligent Feature Selection)算法,该算法通过动态估计背景语料帧之间的欧氏距离的概率分布,能够使所选的帧之间的欧氏距离尽可能大,但是该算法中存在两个超参,实验显示在不同语料库上这两个超参的值都不相同,难以估计最佳值。本文转变思路,从能够体现音素特性的GMM托肯(Token)着手,实现一种基于托肯配比的背景语料选择算法。实验表明,该算法在AISHELL、MASC和TIMIT三个数据集上分别只需要基准说话人语料的18.1%、10.0%和9.1%就能构建达到基线性能的UBM。第四,构建了基于梅尔语谱图和卷积神经网络的说话人鉴别系统。目前主流的说话人确认方法使用的特征都是类似MFCC的手工特征,已经达到较好的识别效果,但是也存在信息过度压缩的问题。针对这个问题,本文提出使用梅尔语谱图直接作为系统的输入,基于卷积神经网络的说话人鉴别系统。实验结果表明,随着训练数据量的增大,本文构建的系统性能逐步接近并超过传统的概率模型。具体而言,在MASC库上,当训练数据与测试数据比值为8:2时,该方法鉴别率(IR)达到90%;当比例达到9:1时,鉴别率达到95.7%,超过GMM-UBM系统的鉴别率。