论文部分内容阅读
人工智能和互联网的快速发展使得语音技术成为人们生活中不可或缺的一部分。其中,语音谎言检测技术是语音在心理学、司法和军事领域的一个典型应用,其目的是通过处理说话人的语音信号来侦测判断说话人撒谎与否。关于语音谎言检测技术的研究已有很多,但大量文献局限于利用传统机器学习算法进行谎言检测,基于深度学习的语音谎言检测的研究却相对较少。近几年来,深度学习的迅猛发展推动了社会各个领域的进步,其中记忆性神经网络在处理时序问题上取得了卓越成就。本文主要研究了基于记忆性神经网络的谎言检测算法,并提出了若干改进算法以提升模型的识别效果,论文的主要工作如下:1)阐述了语音谎言检测的研究背景与意义,分析了语音谎言检测的国内外的研究现状和技术难点,并介绍了几种公开的谎言语料库以及STUDENTS语料库的制作流程,分析了谎言相关的声学特征及现有的算法模型。2)介绍了语音谎言检测中的特征处理工作,如信号的预加重、分帧加窗,以及谎言相关声学特征,包括短时能量、共振峰频率、短时过零率、基音频率、梅尔频率倒谱系数和线性预测系数。3)研究了几种经典的谎言检测机器学习算法,包括朴素贝叶斯、k近邻和支持向量机,通过实验对比了几种算法模型的效果,实验表明在传统机器学习算法模型中,支持向量机的识别效果最优。另外,还介绍了深度学习算法理论,为后续章节的研究奠定理论基础。4)提出了一种卷积型记忆性神经网络谎言检测模型,分析了统计特征和帧级特征之间的差异。由于统计特征容易丢失语音信号的时间动态特性,因此本文的模型输入采用帧级特征。卷积型记忆性神经网络综合了卷积神经网络提取空间特征的优势和循环神经网络提取时序信息的优势,可以更好地提取语音信号的空间特征和时序特征。该模型主要包括卷积双向长短时记忆单元(Convolutional Bi-directional Long Short-Term Memory,CovBiLSTM)层和双向长短时记忆单元(Bi-directional Long Short-Term Memory,BiLSTM)层,其中CovBiLSTM是将BiLSTM中的哈达玛乘积修改为卷积操作而来,从而挖掘语音的空间信息。通过与传统机器学习算法、标准BiLSTM模型进行对比实验,实验结果表明基于卷积型记忆性神经网络的谎言检测模型有效地挖掘出语音的空间特征和时序信息,并通过跳跃连接操作抽取底层特征,提高了模型的准确率。5)提出了一种基于多任务的记忆性神经网络谎言检测模型,利用了多任务学习原理提升模型的泛化性能。该模型主要包括共享隐藏层和子任务层,共享隐藏层用来提取多个任务的共享表征,子任务层包含性别识别、谎言识别和说话人识别(或伪标签识别)。通过与单任务模型进行分析对比,证明了多任务学习能够有效地提高模型的泛化性能,从而提升模型识别效果。