基于神经网络和注意力机制的语音情感识别研究

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:februaryliao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音情感识别(SER)系统作为一组检测语音信号中嵌入情感并对其进行处理和分类的方法,在智能人机交互领域得到了广泛的应用。目前,由于情感语料库、环境噪声、硬件设备等原因,市场上流通的大多数语音情感识别产品适应能力有限,快速、准确、高效地获取语音中所包含的情感信息是国内外语音情感识别领域的研究热点之一。在语音情感识别领域,语音中最相关情感特征提取和模型自身层次结构的改良是当前语音情感识别的主流研究方向,它们的选取将直接影响整个系统的识别准确率。论文在现有语音情感识别研究基础上,提出基于神经网络和注意力机制的语音情感识别系统,用于改善现有模型的识别性能。针对最相关情感特征的选取问题,选用中国自然情感视听数据库(CHEVAD 2.0)作为所构建基于卷积神经网络(CNN)和门控循环单元(GRU)语音情感识别模型训练数据的同时,验证了语谱图低频部分情感特征对情感类别具备更好的区分性。在此基础上,引入焦点损失通过控制交互式情感二元运动捕捉(IEMOCAP)数据集中各情感类别对总模型的贡献占比,进一步提高了模型整体的识别性能。实验结果表明,相对于神经网络模型,其加权精度(WA)和非加权精度(UA)在IEMOCAP数据集上分别得到1.59%和4.41%的提升,在高兴情绪类别上相对于其他情感类别得到最高的提升为7.9%。针对非情感信息影响模型识别性能的问题,提出了基于神经网络与多头注意力结合的语音情感识别模型,通过变换模型输入的方式,使模型更全面地学习语音样本中各类情感特征。结果表明,引入多头注意力机制的CNN和GRU网络模型在WA和UA分别获得了7.16%和8.73%的提升。此外,针对引入多头注意力机制处理长输入序列时会导致整个模型计算复杂度明显增高的问题,给出了利用局部哈希注意力(LSH Attention)通过将多头注意力层因子简化为因子,有效降低了模型训练复杂度。结果表明,采用局部哈希注意力的模型训练速度会随着输入序列的增长依然保持相对稳定的状态。
其他文献
本文旨在建立一种使用常规高速逆流色谱技术分离制备高纯度博落回血根碱和白屈菜红碱的方法.通过分析型高速逆流色谱对六种溶剂体系进行快速筛选,确定以三氯甲烷-甲醇-0.2 mol/L盐酸水溶液(4:2:2,V/V/V)为两相溶剂体系并放大到制备型高速逆流色谱上,以上相为固定相,下相为流动相,流速8 mL/min,转速为455 r/min,进样量1000 mg,温度为25℃条件下分离制备博落回血根碱和白屈菜红碱.实验结果表明:此方法一次性能够从1000 mg博落回生物碱粗品分离得到博落回血根碱盐酸盐505 mg和
本文旨在分析绿豆皮中黄酮类化合物的抗氧化活性及其结构.采用20%、40%、60%、80%乙醇对绿豆皮黄酮粗提物进行梯度洗脱纯化,以总抗氧化能力(total antioxidative capability,T-AOC)、1,1-二苯基-2-三硝基苯肼(1,1-diphenyl-2-picrylhydrazyl,DPPH)自由基清除能力、2,2′-联氨-双-3-乙基苯并噻唑啉-6-磺酸(2,2′-azinobis-3-ethylbenzothia zoline-6-sulphonic acid,ABTS)自
雾霾天气会对监控、安防等领域造成严重影响。传统去雾方法能够提升雾天图像的清晰度。应对局部高曝光以及有限天空区域的情况,其去雾效果并不理想。同时传统去雾模型以大气光值常量为先验条件,导致近处细节信息丢失。基于上述分析,本文以大气退化模型为基础,从提升去雾方法在高曝光等复杂场景下的鲁棒性和弥补去雾图像细节这两个方面进行研究。1)针对复杂场景带来去雾模型参数解算不精确的问题。本文设计了基于大气模型去雾改
肺结节检测是肺癌早期筛查的主要手段。面向肺结节检测的计算机辅助诊断(CAD)系统能够利用相关算法自动标记CT图像中的肺结节,辅助医生解读CT图像中包含的信息,从而提高医生的诊断效率和准确率。然而,面向肺结节检测的CAD系统目前仍存在假阳性率高、准确率低的问题。为解决上述问题,本文从数据增强、肺结节检测和降假阳性三方面展开研究。本文的主要研究内容如下:(1)针对医学图像数据量少,深度学习算法难以训练