【摘 要】
:
对说话人情感状态的识别是机器学习领域中一项艰巨的任务,其主要目的是从人类话语中自动识别出情感,即语音情感识别(Speech Emotion Recognition,SER),它在人机交互领域发挥着至关重要的作用。语音中的情感信息可以有效地帮助机器人理解人与人之间自然交互的意图,其研究主要集中在传统手工制作的底层特征和神经网络所学习的高级特征。以往的工作主要集中在提取传统手工制作的情感特征,但随着深
论文部分内容阅读
对说话人情感状态的识别是机器学习领域中一项艰巨的任务,其主要目的是从人类话语中自动识别出情感,即语音情感识别(Speech Emotion Recognition,SER),它在人机交互领域发挥着至关重要的作用。语音中的情感信息可以有效地帮助机器人理解人与人之间自然交互的意图,其研究主要集中在传统手工制作的底层特征和神经网络所学习的高级特征。以往的工作主要集中在提取传统手工制作的情感特征,但随着深度学习领域的发展,神经网络在SER领域有着卓越的表现。但SER在特征提取方面目前仍然面临着重大挑战,即如何选择一种可靠的方法来从语音中提取显著的特征来推测说话者的情感状态,并构建出高性能的特征表征的网络模型,基于以上的研究目的,本文主要包含以下几点内容及其创新点如下:1)研究基于三维Log-Mel语谱图的深度学习情感识别模型。对语音信号的预处理采用一种基于关键序列段选择的方法,通过径向基函数网络(Radial Basis Function Network,RBFN)和K-means聚类算法找聚类的相似度,对序列片断进行有效的选择,该片段接近群集的质心并代表其余片段。再使用梅尔频率倒谱系数(Mel-frequency Cepstral Coefficients,MFCC)将选定的关键序列转换成三维的log-Mel语谱图,其作为卷积循环神经(Convolutional Recurrent Neural Network,CRNN)网络模型的输入,并采用多尺度卷积策略,设计了两组具有不同尺度的卷积核,以从输入数据中捕获时域和频域信息。2)引入注意力机制并搭建一种多特征联合的网络模型。注意力机制的引入有利于处理语音信息的无声段,突出情感相关信息。为了解决传统手工制作的底层特征的局限性,捕捉到SER任务所需的足够多的情绪特征,将传统底层声学特征和深度学习的高层语义的特征联合生成一个双通道HSF-CRNN-Attention模型,这两种特征可以相互配合以提取出更具有鲁棒性和丰富性的特征表示。本文主要的研究重点主要是从特征和网络两个方向进行讨论的,以此改进并搭建多特征联合和注意力机制网络结构,提取出显著的情感特征表示,并在IEMOCAP和EMO-DB数据集上进行实验对比分析。实验结果表明,本文提出的方法在EMO-DB上的平均召回率和精准度分别为82.88%和82.43%;在IEMOCAP上的平均召回率和精准度分别为66.1%和64.18%。较CRNN基线模型的识别精度分别提高了5.75%和5.36%、5.93%和5.45%,对情感识别的结果有显著的提升,因此证明了本文方法有效性。
其他文献
持续的全球食源性疾病和耐药细菌的广泛流行,对食品安全和人类健康造成了极大的威胁,迫切需要研发新型杀菌、控菌技术.噬菌体裂解酶是大部分裂性噬菌体在裂解期释放一种活性蛋白,能够有效裂解宿主细胞壁,已被证明可应用于食品供应链的各个环节中控制食源性致病菌风险.天然噬菌体裂解酶具有高度的宿主特异性和强烈的裂解活性,能破坏细菌生物被膜,而且具备绿色安全、不易产生耐药等优势.同时,噬菌体裂解酶具有模块化结构特点,运用蛋白质工程技术将其重组,可增强其裂解活性、提高稳定性以及靶向性.本综述系统地描述了噬菌体裂解酶的模块化结
地球同步轨道望远镜的工作环境温度复杂,其环境温度受太阳影响非常严重。为提高地球同步轨道望远镜对暗弱目标的探测性能,对望远镜的杂散辐射进行抑制处理,减少杂散辐射到达系统像面,提高望远镜的成像质量。红外杂散光是指除目标光线外传播到达光学系统像面的光线。红外杂散光的危害在于,使光学系统像面的对比度和信噪比降低,使目标成像质量下降,严重时红外杂散光产生的热辐射能量会淹没地球目标信号的辐射能量,影响到系统的
肝细胞癌(HCC)是第六大最常见的恶性肿瘤,也是与肿瘤相关的死亡的第四大主要原因。近几年将近80%的HCC患者确诊时已经是中晚期,因此不能够进行切除和消融等治愈性治疗。目前对于不可切除的中期肝癌患者的标准治疗方法——经动脉化疗栓塞(TACE)已被证明可以延长患者2–3年的生存期。然而,临床研究发现TACE治疗对有些患者无效,继而导致肿瘤坏死不完全及肝功能进一步恶化。其原因可能是肝肿瘤异质性导致的,
为研究煮制、微波熟制和烤制对番鸭肉挥发性风味物质的影响,采用电子鼻和顶空气相离子迁移谱(headspace-gas chromatography-ion mobility spectrometry,HS-GC-IMS)技术对番鸭肉的挥发性风味物质进行分析.结果 表明,电子鼻可以实现对不同加工方式番鸭肉的香气轮廓进行快速区分.HS-GC-IMS共检测出54种挥发性化合物,其中醛类18种、醇类16种、酮类11种、酯类5种、呋喃类3种、烯类1种,且醛类物质的相对含量高于其他种类.经相对气味活度值分析得到3种加工
泡沫铝是一种铝基合金内分布大量孔洞结构的新型材料,不但保留了金属材料的导电、高比强度等特性,而且具备轻质、吸声、吸能减振等多孔材料的特性,表现出结构功能一体化的特征,在潜艇、装甲车等国防以及高铁、汽车等交通领域具有广阔的应用前景。泡沫铝中高频吸声性能良好,但低频吸声性能很差,且吸声频带很窄,目前的研究主要是从制备方法上进行孔结构优化,少数学者研究了机械穿孔对泡沫铝声学性能的影响,但由于加工孔径较大