论文部分内容阅读
如何防止假冒者的闯入,是声纹识别研究中的重要课题之一。语音合成、语音转换和录音回放是闯入声纹系统的若干手段。随着语音合成和语音转换技术的发展,利用现有的合成技术可以伪造出具有目标说话人声音特性的语音。另一方面,随着高质量录音和播放设备的日益增多,回放录音的质量越来越高,具有较强的攻击性。为了提高声纹识别系统的安全性,近年来声纹欺骗检测引起了人们的关注。目前,关于声纹欺骗检测的研究存在两个局限:一方面,大部分研究人员专注于特征研究,并使用高斯混合模型和前馈全连接网络(Deep neural networks,DNN)作为分类器,缺乏对于不同的基于深度神经网络的分类器的比较。另一方面,部分研究人员使用卷积神经网络和循环神经网络作为分类器,存在计算量较大的问题。针对上述问题,本文对深度神经网络在声纹欺骗检测中的应用展开研究,相关工作总结如下:1.研究基于时延神经网络(Time Delay Neural Network,TDNN)和注意力机制(ATTENTION)的声纹欺骗检测方法。在ASVspoof2015数据集上,TDNN-ATTENTION模型的等错误率(Equal Error Rate,EER)比DNN降低62%。在ASVspoof2017数据集上,相应降低了11%。2.研究基于循环神经网络的声纹欺骗检测方法。本文研究了长短时记忆单元(Long Short-Term Memory,LSTM)和门控循环单元(Gated Recurrent Unit,GRU)两种记忆单元。在ASVspoof2017数据集上,LSTM模型取得10.05%的EER;GRU模型的EER为9.60%,取得本文最好的实验结果,与DNN相比EER降低了20%。3.研究了基于前馈序列记忆神经网络(Feedforward Sequential Memory Networks,FSMN)的声纹欺骗检测方法。FSMN与TDNN和RNN相比具有明显的速度提升。在ASVspoof2017数据集上,简化后的FSMN模型的EER为9.95%,与DNN相比EER降低了17%。在模型大小和等错误率近似相等的情况下,FSMN的计算耗时比LSTM减少了91%。