论文部分内容阅读
说话人识别是一种基于生物特征的身份认证技术,也被称为声纹认证。是根据不同的说话人语音之间的个性信息和特征来区分不同的说话人的身份。由于说话人识别技术具有可扩展性好,所需要的设备简单且成本低廉,用户易接受等优点,可被广泛的应用在了银行系统,刑侦侦查,国防军事等领域。说话人识别伴随着半个多世纪的发展已经取得了不错的发展,已经有大量的产品问世,但是现有的说话人识别系统还存在着对环境噪声比较敏感以及安全性不高等问题需要解决和完善。高斯混合模型凭借着大量的高斯概率密度曲线,实现了对说话人语音特征比较好的分类,在说话人识别领域中取得了不错的识别性能,是说话人领域中的一个经典的识别模型。但是实验发现高斯混合模型对说话人语音的规模很依赖,较高的识别性能往往需要大量的说话人语音经过训练才能实现。并且对环境噪声比较敏感,鲁棒性较差。深度学习是最近几年发展起来的一种模式识别技术,已经在图像分类和识别中取得了很大的突破,并且具有自主学习的能力,能根据目标不断地优化所提取出的特征。因此能够提取出对环境噪声不敏感的深度说话人语音特征。并且凭借着强大的模式分类能力能够将提取到的说话人语音特征参数进行很好的分类识别。为此本文将深度学习技术引入到了说话人识别中的特征参数提取和对特征参数的建模和识别中来,以提高说话人识别系统的性能。主要的工作如下:(1)介绍了说话人识别中语音的基本技术。说话人识别中语音预处理包括语音去噪,端点检测,加窗和分帧。本文主要介绍了两种语音增强技术,并做了实验对比。介绍了端点检测的重要性和本文所采取的端点检测技术。介绍了加窗和分帧的重要性和必要性。对常见的说话人语音特征参数做了介绍,对经典的MFCC特征参数做了详细的推导。介绍了主流的说话人识别模型。(2)研究了基于深度神经网络的瓶颈特征的提取和识别性能的验证。本文将深度学习引入到了说话人语音参数的提取中来,对瓶颈特征的基本原理和提取过程做了一个详细的叙述。并结合高斯混合模型将瓶颈特征用于说话人识别。通过详细的实验验证了瓶颈特征相对于MFCC特征参数的性能提升。(3)针对高斯混合模型鲁棒性不强的缺点,研究了基于瓶颈特征和MFCC特征参数的复合特征在深度神经网络下的性能表现。本文研究了两种不同的说话人特征参数融合方式,并分别和不同的深度神经网络结合。验证了复合特征在深度神经网络做后端分类识别的良好的性能表现,通过实验验证了这种识别方法在抗噪能力和安全性上的巨大的提升。