基于多模态融合的情感识别技术研究与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:tony_yang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感识别是人工智能的关键应用,在服务型机器人、教育、医疗、商业服务等诸多方面,都需要通过计算机的帮助来获得人类准确的情感,因此具有重要研究价值。同时,情感识别也颇具挑战性,因为人类多样化的表达情感方式增加了它的复杂性,如自然语言、面部表情和声学信息。这种多样化的情感表达方式凸显了传统的单模态情感识别存在信息利用率低、识别准确率低的缺点,因此很多学者将目光转移到多模态情感识别,如何利用好这些来自不同模态的信息成为多模态情感识别研究中的关键任务。目前在多模态情感识别任务中仍存在以下普遍问题:一是传统的特征提取方法表征能力不足,而深度学习方法受限于可用训练的多模态数据不足,难以充分挖掘各个模态数据自身包含的情感信息;二是不同模态信息存在模态内关联性以及模态间关联性,单一模型难以捕获这些潜在的互信息;三是多模态信息的协同参与在提高情感识别效果的同时,也会导致过度依赖贡献度更高的模态信息,一旦数据缺失会严重影响鲁棒性。从以上几个问题出发,本文做了以下几个方面的工作:(1)针对传统特征提取方法表征能力不足的问题,引入基于知识迁移的深度特征提取方法:在文本模态,采用具有强大的文本语义表达能力的BERT预训练模型对文本进行词嵌入表示;在视频模态上,采用在大型面部数据集上预训练的面部识别模型FAb-Net和ResNet50提取深度视觉特征;在音频模态上,采用VGGish和wav2vec2.0深度学习算法来获得音频信号的高级表示。通过多种方法加强对语言、视觉和音频模态的表示学习,提高情感分析系统的性能。(2)针对单一模型难以挖掘并平衡各模态中潜在互信息的问题,提出了一种基于Transformer协同注意力机制、Mogrifier门控循环单元以及EmbraceNet融合方式的多层次跨模态感知情感识别模型,旨在发现多源异构信息之间的模态交叉和时间交互,有效的提升了不同特征空间在全局范围内的特征聚合能力,在公开数据集上进行的与多种方法的对比实验中,验证了提出的模型兼具情感识别的有效性与鲁棒性。(3)本文在研究情感识别算法基础上,按照软件工程的设计流程,基于B/S架构开发了网页版多模态情感识别系统,将本文算法模型应用。构建了一个集用户管理、数据采集、多媒体可视化展示、情感结果反馈等多功能为一体情感识别系统。
其他文献
“诠释学”从词源上就具有应用的向度,在早期的古典诠释学里,应用也一直占据着重要的位置。但由施莱尔马赫所肇始的现代诠释学在借助科学方法来实现诠释学的普遍化转向的同时,遮蔽和遗忘了应用作为诠释的基本要素的内涵。伽达默尔立足于现象思维和此在的生存论,回归古希腊理论即实践、实践即应用的思想传统,“重新发现”了应用作为普遍与特殊之中介是与理解和解释三位一体、内在统一的要素,应用问题关乎文本的同一性与理解这一
学位
多模态磁共振影像可以清晰地显示出人体内部的病变情况。医生可以通过分析磁共振影像诊断疾病,从而制定出合适的治疗方案。因此,磁共振成像技术被广泛应用于各类疾病的诊断过程。脑胶质瘤是一种典型的脑部恶性肿瘤,严重威胁到人类的生命健康。利用磁共振影像可以实现对脑胶质瘤的分类,但在实际的临床数据采集过程中,往往会因为各种原因而导致多模态数据的部分甚至整个模态发生缺失,不利于医生的诊断。而使用存在缺失的多模态数
学位
服刑人员与家属的亲情会见、与法律援助人员的沟通,在促进服刑人员积极改造方面起到重要作用。远程视频会见作为一种新兴的会见方式逐步受到重视,成为智慧监狱建设的重要方向之一。传统的会见过程监管方式智能化水平低、警力投入大、劳动强度高。本文面向远程视频会见应用,研究基于深度学习的异常行为检测和预警技术,提升会见过程监管的智化水平和监控干警工作效率。针对实际应用需求,构建轻量化的目标检测和姿态检测模型,设计
学位
启发式算法是受生物包括人类处理事务的思想启发,设计出来的模仿生物种群行为的智能算法。传统的精确求解算法,在面对一些复杂的NP问题时,往往难以求解。启发式算法则可以在有限的时间空间成本下给出优化问题一个可行解。狮群算法是近年来研究人员模仿狮群行为设计创造的一种启发式算法。不同身份的狮子具有不同的行为,狮王引领方向,母狮合作捕猎,幼狮在狮王附近进食,学习母狮的捕猎、或被驱逐出领地成为流浪狮。相比于一些
学位
石墨烯作为现今二维材料研究中最广泛和热门的材料之一,其独特的力学、光学、磁学与电子学性质受到了广泛的关注,但其零带隙、较低的化学活性等限制了其在半导体、催化、生物医疗等领域的应用。为打开带隙,提高其化学活性,功能化石墨烯使用不同官能团处理石墨烯表面,实现对其性能改善,比如:氧化石墨烯具有更高的化学活性,而氟化石墨烯具有较宽的可调带隙。众所周知,功能化过程中的化学试剂的影响以及材料生长过程中可能会涉
学位
费奇可知性悖论是从可知性原则:一切真理都是可知的,推得一切真理都是被知道的论证。任何宣称能够解决费奇悖论的方案都需要满足的基本条件是该方案的确能够避免产生类似费奇悖论的结果。因此,作为对跨世界可知性策略的可行性的讨论,我们首先试图确定费奇论证成立的最低条件,以判断跨世界可知性是否能够避免费奇悖论。通常看来,这一论证所依赖的条件是知识的事实性原则与分配性原则,但已有文献指出,这两个条件对于费奇论证的
学位
电解水制氢是一种获得高纯氢气的理想方式。目前,开发一种经济高效、持久耐用的非贵金属催化剂至关重要。在电催化析氢催化剂中,过渡金属材料因其独特的结构特性和广泛的地球资源分布而受到研究者的关注。然而,块状过渡金属材料带隙宽、导电性能差、易堆积团聚,这将导致掩盖活性位点,影响催化活性。纳米级过渡金属催化剂可以很好的避免以上问题,但是通常需要导电性良好的载体。共价有机框架化合物(COFs)具有比表面积大、
学位
近年来,智能汽车行业迅速发展,自动驾驶技术成为国内外的研究热点。自动驾驶技术核心是通过车载相机、激光测距仪和雷达等设备捕捉实时路况,准确感知和识别周围的行车环境。地面交通标志识别作为自动驾驶研究的关键技术之一,主要包含车道线识别和转向标志识别。其中,车道线识别技术已趋于成熟,而转向标志识别大多基于传统的图像处理方法,此类方法鲁棒性较差,无法应对光照突变、树荫遮挡、天气变化等特殊情况,且检测速度无法
学位
围绕无线移动通信网络中有限通信资源高效利用的核心科学问题,学术界和工业界提出了一系列资源调度优化理论与方法以使用有限的资源满足不断攀升的通信需求。无线通信网络资源调度优化问题通常被建模为非凸优化问题,由于目标函数非线性且优化要素约束复杂,解析解难以得到,通信资源的调度高度依赖数值迭代算法,网络性能与迭代算法的设计密切相关。但是,现有的资源调度迭代算法存在计算复杂度高、收敛时间长等问题,难以适应快速
学位
头孢呋辛酯是第二代头孢菌素类抗生素,口服吸收良好,临床上用于治疗各种敏感菌的感染。目前,国内生产的头孢呋辛酯存在杂质δ-3异构体含量高、粒度分布不均匀及储存引起产品质量下降等问题,严重影响了头孢呋辛酯的生产、存储及使用。本论文以此为研究背景,对头孢呋辛酯结晶过程和降解过程进行了研究。采用激光动态法测得了头孢呋辛酯在常压下、278.15 K-313.15 K范围内在不同溶剂中的溶解度,使用Apelb
学位