论文部分内容阅读
语音是人机交互最自然最理想的方式之一,承载着说话人丰富的情感内容。语音情感识别的终极目标是让机器能够像人类一样通过语音识别人类情感,实现更好的人机交流,这在科技应用场景中有着非常广阔的未来。本文主要研究了基于深度学习的语音情感识别,将深度学习引入语音情感识别算法中,并针对相应的算法提出若干改进应用于语音情感识别中。本论文的主要研究内容如下:(1)学习并了解了语音情感识别的研究背景、意义、历史以及研究现状,重点讨论了语音情感识别的四个研究对象,分别为情感描述模型、情感数据库、情感特征参数以及情感分类算法。(2)设计并录制汉语语音情感数据库,该库包含害怕、厌倦、开心、烦躁、忧虑、伤心和生气七种基本情感状态语音,并经过试听测试。对数据库中的语音信号进行预处理后,并提取出语音能量、过零率、基频、子带能量、MFCC参数以及频谱特征等参数组成情感特征矢量。此外,为了后续研究的需要,本章节还介绍了语谱图这一语音二维表示形式。(3)讨论了深度学习理论的基础知识,包括人工神经网络(ANN)、softmax以及它们的训练算法。这为下面的深度学习理论提供了基本构件。学习了SDA网络的基本原理,并将SDA用于语音情感特征向量的降维处理,研究了SDA提炼深层特征的能力。与传统降维算法对比,表明了SDA降维具有如下两点优势:1、维数控制能力强;2、降维后分类效果好。此外,为了合理运用样本数据的标签信息,运用标签信息进一步提炼语音情感相关特征(DD-AEF),对比其它特征,证明了DD-AEF特征在语音情感分类能力上具有明显的优势。最后,提出了运用SDA网络提取SDACC谱特征的方法,并实验对比了其与HuWSF谱特征的语音情感分类能力,证明了SDACC克服了HuWSF特征的缺陷,展现了卓越的性能。(4)讨论了CNN网络的基本原理及优势,研究将语谱图用于CNN进行语音情感识别的可行性,为此讨论了语谱图四种分割方式,并得出分段预处理是更好的语谱图分割方式的结论。在此基础上意识到多卷积核在微观和宏观两种尺寸下对语音情感特征有着更好的描述,所以讨论了将两种卷积核用于语音情感识别的模型。接着,根据语音情感显著性特征提取的方式,提出了CNN瓶颈特征(CNN-BN)的提取,提取了与目标标签更为相关且维数更低的特征集。最后讨论了CNN-BN特征维数与情感识别率的关系。(5)讨论了DBN的基本原理以及训练方式。同SDA一样,首先研究了DBN作为降维方式相对于其它降维方式的优劣,通过实验对比了DBN降维后特征与其它方式降维后特征对情感识别率的影响。接着,本章节利用DBN作为频谱提炼的方式,提出了类似于SDACC的DBNCC特征提取方式,为了进一步挖掘谱特征,提出了在分割能量图时,频率轴重叠分割的方式来提取改进的DBNCC特征。最后,通过实验对比了SDACC.传统DBNCC以及本章节提出的改进DBNCC语音情感分类的效果,实验证明了改进DBNCC特征的优越性能。本文创新点如下:(1)基于HuWSF特征提出了SDACC特征、DBNCC特征以及改进的DBNCC特征提取算法;(2)基于双核CNN以及显著性特征提取方式,提出了CNN-BN特征的提取算法。