基于注意力机制的语音情感识别

来源 :东南大学 | 被引量 : 0次 | 上传用户:bbben
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感识别在人机交互方面一直是一个极其重要的领域,涉及到了人工智能,情感计算等多个组成部分。语音往往能够直接的表达出人类的情感,因此如何提高语音情感识别的准确率一直是声学领域的热门研究课题。语音情感识别在生活中有着重要的意义,如机器自动识别儿童的情感并加以疏导或记录,以便家长能够更好的关注于儿童的心理健康;在公安局或监狱内,通过非接触式的识别被审问人的语音情感,能够更好的辅助警方发现嫌疑人的心理活动,如是否说谎。语音情感识别的用处是显而易见的。然而,由于缺乏对语音的时序关系的建模,以及其和情感类别之间的建模,使得语音情感识别在现实环境下仍然处于起步状态。本文在国自然基金的资助下,针对语音的时序关系,提出了多种基于注意力机制的语音情感识别算法,并在多个公开语料库上优于当前最先进的语音情感识别算法的性能。本文的主要工作和创新点包括:
  (1)研究了语音情感识别的意义,以及调研了当前最先进的语音情感识别的算法。调研了注意力机制在语音、自然语言处理间的运用,以及当前最先进的注意力机制的算法。介绍了相关的语音情感识别公开语料库。
  (2)为了挖掘对于不同情感更具有区分性的特征,首先介绍了语音情感识别的特征预处理,并提出一种适用于提取语音时序关系的帧级语音特征来替换传统的静态语音特征,从而尽可能的保留语音在情感识别中的时序信息。实验证明,该时序特征的某些维度对不同语音情感的区分度十分显著。
  (3)为了使得长短时记忆网络(LSTM)更加高效的处理情感特征,提出了一种LSTM的变体Attention-LSTM,将传统LSTM的遗忘门和输入门替换为对细胞状态计算自注意力的注意力门,大幅度的减少了 LSTM 结构的变量参数,能够在缩短 LSTM 训练时间的同时显著提升识别准确率,且同时优于LSTM和多个先进的变体。在识别准确率上,相比基线,在CASIA公开语料库上,相对提升了0.7%;在Enterface公开语料库上,相对提升了7.5%;在GEMEP公开语料库上,相对提升了5.2%。
  (4)为了使得不同情感数据在 LSTM 的输出能够更具区分度,提出了一种动态筛选 LSTM 输出的方法。相比传统的使用 LSTM 时序输出的最后一个状态,本文分别提出了两种注意力筛选的方法:基于时间维度注意力的筛选和基于特征维度注意力的筛选,能够同时从两个维度对需要关注的对应情感特征进行自动加权。随后,组合上述Attention-LSTM、时间维度注意力和特征维度注意力的方法,得到了本文的最佳模型。在识别准确率上,相比基线,在CASIA公开语料库上,相对提升了3.1%;在Enterface公开语料库上,相对提升了18.2%;在GEMEP公开语料库上,相对提升了17.5%。该模型和静态特征的SVM(支持向量机)算法相比,在对应三个公开语料库上,可以分别相对提升6.2%,60.6%,42.5%的性能。
  (5)为了充分利用不同 LSTM 层间的输出进行情感分类,提出了一种基于注意力机制做特征筛选,去除冗余信息的“Dense LSTM”。利用上述两种不同维度的注意力算法做LSTM层间的特征筛选,显著的提高了语音情感的识别率。在识别准确率上,相比基线,在Enterface公开语料库上,分别相对提升了10.3%和12.8%,在IEMOCAP公开语料库上,分别相对提升了10.9%和17.4%。
  综上所述,本文针对时序关系和情感类别之间的建模,使得LSTM内部、LSTM输出、多层LSTM能够通过注意力机制挖掘出显著区分情感的特征,从而有效提高语音情感的识别率。这能进一步提升实际应用中的语音情感识别算法,极大地促进人机交互的发展。
其他文献
该工作系统研究了锡改性锆钛酸铅Pb(Zr,Sn,Ti)O反铁电-铁电体系在电场、温度和压力等外场诱导下的相变性能,在此基础上研制一种能够在低压力下实现铁电→反铁电转变的机电换能材料.通过制备出颗粒细小均匀的氧化物混合粉体,降低了陶瓷烧结温度、提高致密度.Pb(Zr,Sn,Ti)O陶瓷适当的烧结温度在1260℃附近,在这个烧结温度材料的力学、电学性能和相变性能得到优化.通过变温第一周电滞回线和热分析
该文从半导体的光敏性、光敏器件的一般参数出发,首先对光敏二极管的种类、结构、工作原理、特性及其应用作了简单的概括,并对PN型和PIN型光敏二极管的重要的光电参数进行了定性和定量的描述.SIPT是一种新型固态光敏器件.它相当于多个PIN光敏二极管并联且自带一个线性好、增益高、频带宽、噪声小的静电感应晶体管(SIT)放大器的光敏探测器,因而具有灵敏度高、增益大等优点.文中给出了该器件的结构、工作原理、
该文的主要工作是在深入理解和分析两种目前流行的串行总线协议USB1.1 和IC的基础上,进行USB1.1设备控制器和IC从模式接口电路的设计.随后,把USB1.1设备接口和IC从模式接口电路整合在一起,形成一个USB-IC串行协议转换器,使数据可以在USB1.1总线和IC总线之间相互传输.首先,该文系统地对USB1.1以及IC总线协议,特别是USB1.1设备和IC从模式涉及的总线协议,进行了详细的
学位
该文介绍了有关TEA CO激光器的一些基本原理,利用TEA CO激光器件的理论计算了折叠腔TEA CO激光器的一些结构参数及输出增益系数,利用气体快放电的模型对快放电过程进行了分析计算.在实验上,我们首先对折叠腔TEA CO激光器进行了安装调试,实现了双通道放电激励折叠腔TEA CO激光器的双通道同时辉光放电;双通道同时辉光放电下,对气体快放电过程进行了实验研究;完成了双通道放电激励折叠腔TEA
学位
近年来随着神经网络研究深度的增加,神经网络需要解决的场景越来越复杂,网络模型也随之变得复杂。复杂的模型使得预测过程的耗时逐渐变长,如何在保证原网络精度基本不变的前提下,对神经网络的预测过程进行加速是论文研究的重点内容。  论文主要研究了神经网络加速领域中的高效剪枝、低秩分解和硬件加速算法,并使用LeNet5、AlexNet、VGG11、VGG16等四种经典神经网络对上述加速算法进行实验验证。在此基
学位
近年来,随着材料技术、信息处理技术以及通信技术的发展,音视频会议系统已经克服了空间地理位置的限制,实现了人们远距离交互式的交流沟通。音视频会议系统可以让人们随时进行语音通话或者视频聊天,降低了沟通的成本,提高了办公效率。为了提高音视频会议系统的通话质量,使用自适应滤波器来消除回声信号对语音通话的影响。但是由于人们对音视频会议系统的通话性能要求越来越高,音视频会议系统中会配备多个麦克风设备和扬声器设
学位
随着无线通信技术的不断发展,电磁环境愈发复杂多变,传统的抗干扰方式缺少灵活性,无法动态地适应场景变化,高效可靠的智能抗干扰方案的研究势在必行。  本文设计了基于智能决策的抗干扰通信系统,将深度学习与强化学习算法应用到智能决策中,通过对传输环境的分析学习,完成信道与通信参数的智能选择,从而进一步提高系统的抗干扰能力。  首先对传统的抗干扰技术进行了概述,并对自适应抗干扰技术进行分析研究,指出上述方案
语音分离技术在语音信号处理系统及人工智能系统中有广泛应用。在实际环境下,传统的语音分离算法在低信噪比和高混响条件下存在泛化性能差等问题。本文结合人耳听觉感知特性,基于空间空间特征和谱特征,研究了基于深度神经网络的双耳语音分离方法。论文主要提出以下两种算法:基于前后帧信息的卷积神经网络CNN (Convolutional Neural Networks)双耳语音分离方法,基于语谱图和空间特征的深度聚
学位
尽管深度神经网络模型的性能出色,但随之而来的是急剧增长的计算力以及存储需求。模型压缩和加速技术研究的开展能够让深度模型更好地适应移动端设备。本文围绕基于模型剪枝的模型压缩和加速技术进行探讨,着力于在有效降低深度网络参数量的同时保证网络精度不明显下降。本文一方面结合迭代剪枝中的权重绝对值和对应变化量作为重要性判断依据进行剪枝,另一方面将剪枝框架和知识蒸馏结合以获得更好的压缩效果。本文的主要工作总结如
学位
调制识别一直是通信系统的一个重要研究领域。不论在军用领域的电子侦察、敌我识别还是民用领域的认知无线电等,调制识别都有重要应用,也是最为核心的技术之一。近几年随着5G的到来与AI技术的发展,调制识别技术的研究更加热门。目前调制识别多在高斯白噪声条件下研究,虽已取得了一定的研究成果,但距离实际应用还有较大的距离,这是因为通信设备所处的电磁环境日益复杂,形式多样的干扰无处不在,原有的调制识别方案大多对干
学位