基于深度学习的跨模态音频情感分类方法研究

来源 :河北科技大学 | 被引量 : 0次 | 上传用户：txk42424242

【摘要】

：

【作者】

：

杨铠成

【出处】

：

河北科技大学

【发表日期】

：

2020年01期

【关键词】

：

情感分类多模态交互上下文信息注意力机制预训练模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着智能手机的普及、社交媒体的迅速崛起,情感分类作为人机交互的核心技术之一吸引了越来越多研究者的关注。情感分类技术现阶段已经成功应用到很多场景,例如人机对话、自动驾驶等等。目前,情感分类技术大多处在单模态阶段的研究,例如音频模态、文本模态等等,然而单模态所能包含的信息量是有限的,而且比较容易受到噪声的影响。通过引入不同模态信息,可以提供更多情感相关信息,从而提升情感分类性能。本文主要进行了音频单模态情感分类以及音频、文本跨模态情感分类的相关研究,主要研究内容如下:(1)本文提出一种基于Constant-Q色谱图的音频情感分类方法。本文首先使用Res Net从Constant-Q色谱图中提取谱图特征,并设计了一种Contextual Residual LSTM Attention Model用于音频情感分类任务。之前大多数研究都是利用音频特征抽取工具来从音频数据中抽取对应的统计特征,例如梅尔频谱系数、过零率等,但是这种特征损失了音频模态中重要的时序信息。因此本文使用Res Net网络从Constant-Q色谱图中抽取带有时序性信息的频谱特征,并利用Bi-LSTM来学习不同话语之间的上下文信息,同时通过引入Self-Attention来捕捉其中的情感显著信息。在国际标准公开数据集MOSI上,本文分别进行了模型对比实验以及特征对比实验,实验结果表明相较于其他基线方法,本文所提出的方法取得了最优结果。(2)本文提出一种基于异构特征融合的音频情感分类方法。本文首先提出Residual Convolutional Model with Spatial Attention用于从梅尔频谱图中抽取上下文无关的频谱特征,并设计了Contextual Heterogeneous Feature Fusion Model用于将音频模态的频谱特征与统计特征进行交互并进行情感预测。先前的工作,大多数研究者只使用一类音频特征,例如频谱特征或者统计特征,然而这些特征往往是异构的,它们包含了不同层面的信息。因此本文设计了一种Feature Collaboration Attention,用于融合音频模态的频谱特征和统计特征,从而捕捉到更丰富的情感信息。在国际公开标准数据集MOSI和MOUD上,该方法取得的音频情感分类性能均优于基准模型。(3)本文提出一种面向非对齐序列的跨模态情感分类方法。本文基于Transformer模型,提出了一种面向非对齐跨模态序列的Self-Adjusting Fusion Representation Learning Model。前人在多模态情感任务上的工作往往需要对音频与文本模态特征进行手工对齐,然而现实世界中音频模态与文本模态往往是非对齐的。本文所提出的方法可以直接从非对齐的音频与文本模态数据中学习融合表示,并分别利用音频和文本单模态特征表示来对融合表示进行调节。在国际公开标准数据集MOSI和MOSEI上,该方法在所有评价指标上均优于基准模型。(4)本文提出一种面向对齐序列的跨模态情感分类方法。本文基于预训练BERT模型,设计了一种面向对齐跨模态序列的Cross-Modal BERT模型。先前的工作往往聚焦于单文本模态来使用预训练BERT模型,本文通过引入音频模态来辅助文本模态更好地对预训练BERT模型进行微调,通过利用Masked Multimodal Attention来将音频模态与文本模态进行充分交互,从而来动态调节单词权重并获得更好的特征表示。在国际公开标准数据集MOSI和MOSEI上,该方法在所有评价指标上均优于基准模型。除此之外,本文对单词权重进行了可视化,通过对比引入音频信息前后单词权重的变化,也证明了该方法的有效性。结合深度学习技术提高跨模态音频情感分类任务的性能,对于人工智能领域的发展是十分重要的。实验证明本文提出的方法在相应的研究内容上均取得了较优的性能,具有一定的价值。在本文的最后也总结了在研究过程中遇到的问题以及对未来工作的展望。

其他文献

面向航天生保系统的石英增强光声光谱痕量气体检测研究

高灵敏度的痕量气体传感器在载人航天领域有着迫切需求,而目前在载人航天领域应用较多的电化学类型和半导体类型的传感器存在着灵敏度差、稳定性差和寿命短等缺点。而基于石

学位

痕量气体探测石英增强光声光谱技术(QEPAS)石英音叉掺铒光纤放大器(EDFA)

用爱浇灌，静待花开——谈初一学生的养成教育

初一新生,面对新的环境、新的老师及同学,或多或少会产生一些不适应感。作为班主任,有责任也有义务,帮助他们尽快适应初中生活的同时,加强学生的道德修养,促进他们在初中阶段

会议

细节生活树立理想亲力亲为

高校辅导员职业生涯韧性现状及影响因素研究

思想政治工作是高校各项工作的生命线,而辅导员是大学生思想政治教育的骨干力量,工作在大学生思想政治教育第一线,任务繁重,责任重大,在学生成长成才过程中承担着“指导者和领路人”的重要角色。目前,我国社会主义建设进入新时期,大学生教育与管理面临新形势,应对新挑战,解决新难题,职业化、专业化的发展已然成为辅导员队伍的发展大势。辅导员的工作性质本身决定了其工作情境的多变性,生涯挑战的多重性,而职业化、专业化

学位

高校辅导员职业生涯韧性生涯挑战生涯障碍

水厂建设项目后知识转移研究

知识是企业发展之源,知识管理无疑是企业管理重要组成,决定了企业发展方向。项目是各种知识创造、流动、复用的所在,如何在项目中将知识进行识别定位、分析编码、合理储存、复用,是企业在生存和发展中亟待解决的管理问题。2010年后,随着国家南水北调中线、东线工程陆续贯穿通水,相关输水工程沿线省市的供水基础设施配套的水厂建设项目数量逐年增加,每个水厂建设项目投资数十亿元,而建设项目管理知识和经验短缺,已经逐渐

学位

知识转移水厂建设项目影响因素案例研究知识治理

禽腺病毒Ⅰ群4型纤突蛋白亚单位疫苗效力评价及胶体金试纸条的初步研究

目的:自2012年以来,鸡包涵体肝炎的暴发呈上升趋势,主要表现为血清4型引起的心包积水和鸡包涵体肝炎。目前,对于4型禽腺病毒抗体快速检测方法比较少,大多数传统检测方法不仅检测复杂,而且不能大规模的应用到生产实践中。对于4型禽腺病毒疫苗的防控,国内尚没有获得许可的商品化禽腺病毒疫苗。因此本实验利用禽腺病毒截短的纤突蛋白作为抗原,由实验室自制亚单位疫苗免疫动物后进行效力评价,为有效防控禽4型腺病毒病提

学位

禽腺病毒纤突蛋白亚单位疫苗胶体金试纸条

二十世纪上半叶西方功利主义在我国的传播及影响研究

二十世纪上半叶,在特殊的历史时期和西学东渐的大背景下,中国的知识分子不断地探索着中国的发展道路,与此同时西方学术思想全面开始在中国进行传播,其中,西方功利主义作为一种重要的理论进入到人们的视野,在那个救亡图存呼吁变革的年代,以正视利益,关注现实为著称的西方功利主义无疑引起了当时先进知识分子们的高度重视,并为他们提出的社会进步、国家富强的学说以及其他的有关构想提供了理论支持。从早期西方传教士的零星传

学位

西方功利主义边沁严复戊戌变法

京杭运河邵伯湖区段航道疏浚工程进度管理优化研究

研究此课题的目的是通过对京杭运河邵伯湖区段航道疏浚工程全过程进度控制的研究,分析设计、施工阶段进度管理的内容,运用进度管理的方法,结合航道疏浚工程关键项的管理理论,为单位在执行整个项目时,合理控制项目的成本和质量,有效制约、影响、协调项目后期的施工管理环节,从而保障航道疏浚工程整体进度,促成项目顺利成功交付。论文主要研究内容如下:1.运用文献研究法,简述国内外进度管理理论、方法及其研究成果。通过对

学位

航道疏浚工程京杭运河邵伯湖区段进度控制优化关键链

食品安全在线培训及分析决策支持系统

随着食品安全事件频发,反映了食品安全监管以及食品相关从业人员安全意识不足的问题,而且监管部门无法及时了解企业对食品安全相关知识技能的掌握情况。另外,企业人员虽然了

学位

食品安全在线培训系统ECharts数据分析显示个性化组卷算法

论中学语文教学中的生命教育

随着新课改的全面深入贯彻,中学生的心理问题开始走进大众视野,校园自残、自杀、无辜伤害他人生命的事件层出不穷,中学生对于生命的认知问题开始引起教育界的广泛关注。虽然我们对生命起源、发展等问题的研究已经很久了,但从教育视角进行生命探究还是近些年才兴起的,特别是把生命和中学语文教学这种特定的教学行为联系起来。生命教育的目的在于让学生正确认识生命,珍惜生命,热爱生命,并实现生命的价值。语文的人文属性,使其

学位

中学语文教学生命教育

GAP43在苯丙胺致PC12细胞损伤的作用及其机制

目的:探讨GAP43在苯丙胺致PC12细胞损伤的作用及其机理。方法:给大鼠腹腔注射2.5mg/kg/d的苯丙胺建立动物模型,将大鼠随机分成对照组和实验组,实验组根据给药时间分为苯丙胺1

学位

苯丙胺纹状体PC12细胞突起多巴胺PKCGAP43

基于深度学习的跨模态音频情感分类方法研究

其他学术论文