基于深度学习的语音情感识别方法的研究

来源 :东南大学 | 被引量 : 25次 | 上传用户:jsrlzxd111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人机交互最自然最理想的方式之一,承载着说话人丰富的情感内容。语音情感识别的终极目标是让机器能够像人类一样通过语音识别人类情感,实现更好的人机交流,这在科技应用场景中有着非常广阔的未来。本文主要研究了基于深度学习的语音情感识别,将深度学习引入语音情感识别算法中,并针对相应的算法提出若干改进应用于语音情感识别中。本论文的主要研究内容如下:(1)学习并了解了语音情感识别的研究背景、意义、历史以及研究现状,重点讨论了语音情感识别的四个研究对象,分别为情感描述模型、情感数据库、情感特征参数以及情感分类算法。(2)设计并录制汉语语音情感数据库,该库包含害怕、厌倦、开心、烦躁、忧虑、伤心和生气七种基本情感状态语音,并经过试听测试。对数据库中的语音信号进行预处理后,并提取出语音能量、过零率、基频、子带能量、MFCC参数以及频谱特征等参数组成情感特征矢量。此外,为了后续研究的需要,本章节还介绍了语谱图这一语音二维表示形式。(3)讨论了深度学习理论的基础知识,包括人工神经网络(ANN)、softmax以及它们的训练算法。这为下面的深度学习理论提供了基本构件。学习了SDA网络的基本原理,并将SDA用于语音情感特征向量的降维处理,研究了SDA提炼深层特征的能力。与传统降维算法对比,表明了SDA降维具有如下两点优势:1、维数控制能力强;2、降维后分类效果好。此外,为了合理运用样本数据的标签信息,运用标签信息进一步提炼语音情感相关特征(DD-AEF),对比其它特征,证明了DD-AEF特征在语音情感分类能力上具有明显的优势。最后,提出了运用SDA网络提取SDACC谱特征的方法,并实验对比了其与HuWSF谱特征的语音情感分类能力,证明了SDACC克服了HuWSF特征的缺陷,展现了卓越的性能。(4)讨论了CNN网络的基本原理及优势,研究将语谱图用于CNN进行语音情感识别的可行性,为此讨论了语谱图四种分割方式,并得出分段预处理是更好的语谱图分割方式的结论。在此基础上意识到多卷积核在微观和宏观两种尺寸下对语音情感特征有着更好的描述,所以讨论了将两种卷积核用于语音情感识别的模型。接着,根据语音情感显著性特征提取的方式,提出了CNN瓶颈特征(CNN-BN)的提取,提取了与目标标签更为相关且维数更低的特征集。最后讨论了CNN-BN特征维数与情感识别率的关系。(5)讨论了DBN的基本原理以及训练方式。同SDA一样,首先研究了DBN作为降维方式相对于其它降维方式的优劣,通过实验对比了DBN降维后特征与其它方式降维后特征对情感识别率的影响。接着,本章节利用DBN作为频谱提炼的方式,提出了类似于SDACC的DBNCC特征提取方式,为了进一步挖掘谱特征,提出了在分割能量图时,频率轴重叠分割的方式来提取改进的DBNCC特征。最后,通过实验对比了SDACC.传统DBNCC以及本章节提出的改进DBNCC语音情感分类的效果,实验证明了改进DBNCC特征的优越性能。本文创新点如下:(1)基于HuWSF特征提出了SDACC特征、DBNCC特征以及改进的DBNCC特征提取算法;(2)基于双核CNN以及显著性特征提取方式,提出了CNN-BN特征的提取算法。
其他文献
本文研究内容源于科研课题“短波测评与通信系统研制”,目的是设计短波测评与通信软件,实现对现有通信控制器的各项通信性能的测试和评估,以及通过对通信控制器的控制实现系统的
本文中,我们考虑m信源n信宿有向无圈网络中的一类通信问题。在此类问题中,我们规定网络中的链路具有单位容量,每个信源从一个服从均匀分布且具有交换群结构的字符集中独立产
随着移动互联网络的迅猛发展,移动通信的无线频谱资源正面临着严重匮乏的状况。为了解决这一问题,人们提出了Small Cell的概念。大量研究结果表明,在传统宏小区内引入若干Sma
学位
目标跟踪利用目标在移动过程中图像的关联性来实现对物体的跟踪,是计算机视觉领域的一个关键问题。它被广泛应用在各种场合,例如视频监控,人机接口,增强现实等。近年来,大量
LTE-A下行采用正交频分多址接入(OFDMA)的方式,提供正交的子载波,可以避免符号间的干扰问题,并大大提高系统的吞吐量。但小区间的干扰会严重影响小区边缘用户的数据速率,同时
学位
移动通信系统中,切换成为一个越来越重要的课题,尤其是在切换业务增长的微蜂窝网络中。软切换是CDMA系统特有的关键技术之一,它在系统无线资源控制与优化方面起到重要的作用