论文部分内容阅读
欺骗性语音是指利用伪装手段制作的非原始且带有欺骗目的性的语音,主要分两类:1)没有目标识别人的语音变形(Voice Transformation,VT);2)有目标识别人的语音转换(Voice Conversion,VC),语音合成(Speech Synthesis,SS)以及重播攻击。欺骗性语音会对已广泛使用的说话人识别系统(Automatic Speaker Recognition,ASR)造成极高的错误接受率或极高的错误拒绝率,从而危害社会安全。因此,研究欺骗性语音的检测具有重要意义。目前已有的研究一般都分为特征提取和分类识别两部分,且大多都采用传统机器学习的识别方法,需要人工提取特征,影响欺骗性语音检测的效果。鉴于深度学习框架具有自动提取深度特征的功能,本文研究基于深度学习的欺骗性语音的检测算法。主要工作包括:1.提出基于密集卷积神经网络(Dense Convolutional Network,Dense Net)的VT欺骗性语音检测算法。所提出的模型结构是在卷积神经网络的基础上改进得到的,依据语音信号的时频特征进行特殊设计。模型总共包含135层的网络层,能够利用深层的特征,从而进一步地提高检测的精度。实验结果表明该算法对不同欺骗因子下的VT欺骗语音的检测精度超过了98%。并且,加入噪声及经过语音压缩的语音检测精度均依旧保持在90%以上,具有良好的鲁棒性和抗干扰能力。2.提出基于长短时记忆网络(Long Short-Term Memory,LSTM)的端到端的欺骗性语音检测算法。所提出的CNN-LSTM网络结构是由卷积层以及LSTM层组成的,采用端到端的检测方法,语音数据可直接输入网络而不需要加入任何的先验知识,最大化地保留了语音的有效信息。实验结果表明CNN-LSTM无论是在长语音还是短语音上检测进度都超过95%,具有很好的检测效果。综上所述,本文对两种欺骗性语音的检测进行了理论和方法的研究,可作为ASR系统的前置或后置模块,以检测欺骗语音,增强ASR的鲁棒性,对语音信息安全研究具有重要的理论和应用价值。