论文部分内容阅读
复杂背景下的说话人确认是指,在语音信号背景比较复杂的情况下,对说话人身份的确认工作。复杂背景包括,除了说话人语音以外,其他的背景音乐、噪声以及各种杂质音质。因此,复杂背景下的说话人确认要包括两大方面的工作,一方面是语音信号分离;另一方面是对已经通过分离算法得到的纯净的语音信号进行身份确认。当前的语音信号分离,主要采取两种方法,一种是听觉场景分析(ASA),另一种是盲源分离(BSS)。盲源分离方法是对混合后的信号进行操作,从而提取出其中的独立分量,因而此算法也称为独立分量分析(ICA)。ICA有很多的分支方法,其中一种方法在信号分离领域得到广泛应用,这种方法的分离效果较好,同时也因为它的快速收敛特性,被称为固定点FastICA。本文在FastICA算法的原理基础之上,引入了基于MCMC的贝叶斯估计,改善了针对非稀疏源信号的分离情况,提高了FastICA的语音分离效果。在说话人确认模型的选取方面,因为本文分析的对象是与文本无关的说话人确认,故而采用一种对传统GMM模型的一种改进方式:高斯混合模型-全局背景模型(GMM-UBM),这个模型可以通过对大量的语音信号进行训练,得到用来描述特征分布的高阶GMM,这也是此模型的一大优点。针对模型的鲁棒性能改进,论文釆用Feature Mapping和MAP两种信道补偿的方法,都取得了很好的效果。最后,基于以上各种方法,采用工具Visual Studio2010和Matlab2014a,完成论文介绍的复杂背景下说话人确认系统的研究工作。同时,详细介绍了所采用的全部算法和复杂背景下的说话人确认实现的相关步骤,并且阐述了研究成果以及接下来需要考虑和分析的问题。