【摘 要】
:
情感作为人类生活体验的一个重要基础,影响着人类的认知、感知和日常生活。因此,情感识别作为人机交互中的一个重要的研究领域,近年来越来越受关注和研究。情感可以通过多种方式表达,多模态情感识别已经成为情感识别领域的发展重心。本文以语音和人脸表情等模态为基础,分别研究了语音情感识别和人脸表情识别这两个单一模态的情感识别,并在此基础上采用特征融合和决策融合的方法来实现多模态情感识别。具体的工作如下:(1)首
论文部分内容阅读
情感作为人类生活体验的一个重要基础,影响着人类的认知、感知和日常生活。因此,情感识别作为人机交互中的一个重要的研究领域,近年来越来越受关注和研究。情感可以通过多种方式表达,多模态情感识别已经成为情感识别领域的发展重心。本文以语音和人脸表情等模态为基础,分别研究了语音情感识别和人脸表情识别这两个单一模态的情感识别,并在此基础上采用特征融合和决策融合的方法来实现多模态情感识别。具体的工作如下:(1)首先研究了语音情感特征,包括韵律特征、谱相关特征和音质特征。研究并分析了以高级描述因子类型的语音特征为输入的SVM、RF、KNN和DNN的算法模型以及以低级描述因子类型的语音特征为输入的三种LSTM框架的模型。此外还提出了一种以基于门控残差机制的时域卷积和基于注意力机制的LSTM模型相结合的算法来实现语音情感识别的任务。最后通过实验比较分析了多种语音情感识别算法在CASIA、e NTERFACE’05和IEMOCAP数据集上的性能表现,发现了数据归一化对机器学习算法的识别重要性、基于注意力机制的LSTM模型在三种LSTM框架中具有一定的性能优势。同时实验结果显示所提出的结合时域卷积和基于注意力机制的LSTM模型的方法能在e NTERFACE’05数据集上进一步提升语音情感识别的性能。(2)在CK+和FER+人脸表情数据库基础上,研究了基于VGGNet和Mobile Net的卷积神经网络模型的静态人脸表情识别方法,验证了Mobile Net结构的模型能够在减小模型参数数量的同时,保证有效的识别精度,在人脸表情识别任务上具有一定的优势。并在此基础上研究了基于的卷积神经网络与基于注意力机制的长短时记忆神经网络结合的视频序列表情识别方法,并在e NTERFACE’05多模态情感数据集上实验验证了算法的性能。(3)研究了采用语音情感识别模型和人脸表情识别模型或文本情感识别模型提取的高维情感特征的特征融合方法以及基于平均值规则、加权求和规则和乘积规则的决策融合方法,并提出了一种基于关键帧提取和Net VLAD的帧级特征融合方法。研究并分析了特征融合和决策融合两种多模态融合方法在e NTERFACE’05和IEMOCAP多模态情感数据集上的平均识别率和混淆矩阵,并分析比较了单一模态和多模态情方法在数据集上的混淆矩阵。实验结果显示采用高维情感特征的特征融合方法相对决策融合方法具有一定的优势,验证了多模态情感识别方法相对单一模态的情感识别方法具有显著的优势。同时,验证了所提出的利用语音提取情感关键帧并进行帧级特征融合的方法的有效性,该方法在e NTERFACE’05数据集上达到了最高的91.53%的平均识别率。
其他文献
随着汽车保有量的迅速增加,交通安全和交通拥堵成为了一个亟待解决的难题。在人工智能创新科技的不断推动下,自动驾驶关键技术突飞猛进。自动驾驶汽车排除了驾驶员因素的干扰,可以很好的解决了交通安全等问题,加之自动驾驶汽车网络的全局可控性,可以很大程度上避免交通拥堵。由于稳定且可靠的路径跟踪控制系统和自主避障控制系统是车辆实现自动驾驶的必要条件,因此本文针对自动驾驶汽车路径跟踪控制和自主避障控制问题进行了深
近些年来,随着人工智能技术的发展,卷积神经网络在计算机视觉领域得到了广泛应用,它在图像分类、目标检测等任务中表现优异。但卷积神经网络计算量较大,此特性使其难以直接在边缘端或移动设备上部署,因为此类平台通常算力有限,且对功耗敏感。为了使卷积神经网络在这种平台上运行,通常使用轻量级的网络模型,或使用专用的电路对其进行计算。根据这两个理念,本文提出了基于So PC平台的轻量级卷积神经网络加速器,可进行M
近年来,各种智能设备和蜂窝网移动用户数量快速增长,移动数据流量也随之激增,而由于当前通信网络无线资源有限,重复传输大量相同的内容导致资源浪费,回程链路拥塞,通信时延增加甚至通信中断。而雾无线接入网这一新兴的网络架构可以解决当前通信网络面临的上述问题。在雾无线接入网中,边缘节点具备一定的计算和存储资源,通过将流行内容存储到用户附近的边缘节点,即可避免用户从云端反复下载重复内容,进而有效降低链路负载与
随着无线通信技术的发展,天线设计也面临着小型化、宽带化、多频化等多方面的设计需求,天线与阵列设计日趋复杂,设计自由度提升。传统的全波仿真计算虽然仿真结果相对精确,但计算成本较高,不利于需要大量重复仿真计算的优化过程或敏感性分析。本文针对机器学习辅助优化技术及其在天线设计中的应用开展深入研究,具体成果如下:首先,在研究电磁优化领域被引入的常用机器学习代理模型及相关优化算法基本原理的基础上,对比人工神
随着移动互联网的迅速发展以及智能移动终端的普及,越来越多的用户从传统的PC端上网逐渐转换到基于移动智能终端的移动互联网上。各种应用软件在颠覆用户生活习惯的同时,涉及到了用户的个人隐私,不可避免的带来了移动信息安全泄露的威胁。因此,基于移动终端的信息安全也成为了当下的热门研究方向。人脸识别技术主要是基于人的面部特征信息来进行身份识别,综合了人工智能、机器学习、图像处理等众多技术,其识别准确率也逐渐提
传感器节点的能量受限问题是无线传感器网络(WSNs,Wireless Sensor Networks)中的一个重要问题,它关乎到WSNs的使用寿命。近年来,利用无人机(UAV,Unmanned Aerial Vehicle)对节点进行充电引起了国内外学者的广泛关注。本学位论文重点研究了UAV辅助的WSNs充电策略,根据传感器节点的剩余电量和无人机的机载能量,在保证WSNs正常工作的情况下,优化UA
近年来,随着人工智能的兴起,无人驾驶技术逐渐成为研究的热门领域。无人驾驶汽车通过传感器感知周围环境,而环境感知主要包括目标的跟踪与识别。因此高精度的跟踪算法以及高准确率的识别算法对无人驾驶车辆的研究具有较大的推动作用。在目标的跟踪过程中,由于回波信号的非视距传播以及环境噪声干扰等因素导致观测信息中出现奇异值,从而影响算法的跟踪精度。此外,在目标识别过程中,传统的识别算法对类别不平衡问题较为敏感。然
大规模机器类通信(massive Machine Type Communication,m MTC)作为第五代(the Fifth-Generation,5G)移动通信系统的三大关键场景之一,广泛应用于智慧交通、城市大脑、健康监测等领域,为人类的生产和生活提供了极大的便利。与此同时,巨大的用户数、庞大的数据量以及复杂的业务场景,也对通信领域技术的革新提出了严峻的挑战,其中就包括对无线网络接入的控制
近些年来,随着移动智能设备的不断发展,运行于移动设备的应用程序越来越丰富,移动设备的资源和处理能力限制导致了某些应用程序无法满足用户的服务质量要求。克服这一问题的方法就是将移动设备上的计算密集型任务卸载到部署在网络边缘的云服务器上,称为移动边缘计算(Mobile Edge Computing,MEC)。然而,移动边缘云服务器的资源有限,不同的卸载策略和资源分配方式会显著影响用户的服务质量,因此,如
射频识别(Radio Frequency Identification,RFID)与传感技术是物联网的关键技术,其中,标签是射频识别与传感系统中必不可少的信息载体。与其他类型的标签相比,无源标签不含电池,因而成本低、结构简单且使用寿命长,但也存在功能有限等缺陷。因此,研究射频识别与传感系统的理论基础,探索无源标签的性能提升方法,实现不同应用场景下低成本、小型化、柔性的新型无源标签,对于射频识别技术