论文部分内容阅读
随着智能手机的普及、社交媒体的迅速崛起,情感分类作为人机交互的核心技术之一吸引了越来越多研究者的关注。情感分类技术现阶段已经成功应用到很多场景,例如人机对话、自动驾驶等等。目前,情感分类技术大多处在单模态阶段的研究,例如音频模态、文本模态等等,然而单模态所能包含的信息量是有限的,而且比较容易受到噪声的影响。通过引入不同模态信息,可以提供更多情感相关信息,从而提升情感分类性能。本文主要进行了音频单模态情感分类以及音频、文本跨模态情感分类的相关研究,主要研究内容如下:(1)本文提出一种基于Constant-Q色谱图的音频情感分类方法。本文首先使用Res Net从Constant-Q色谱图中提取谱图特征,并设计了一种Contextual Residual LSTM Attention Model用于音频情感分类任务。之前大多数研究都是利用音频特征抽取工具来从音频数据中抽取对应的统计特征,例如梅尔频谱系数、过零率等,但是这种特征损失了音频模态中重要的时序信息。因此本文使用Res Net网络从Constant-Q色谱图中抽取带有时序性信息的频谱特征,并利用Bi-LSTM来学习不同话语之间的上下文信息,同时通过引入Self-Attention来捕捉其中的情感显著信息。在国际标准公开数据集MOSI上,本文分别进行了模型对比实验以及特征对比实验,实验结果表明相较于其他基线方法,本文所提出的方法取得了最优结果。(2)本文提出一种基于异构特征融合的音频情感分类方法。本文首先提出Residual Convolutional Model with Spatial Attention用于从梅尔频谱图中抽取上下文无关的频谱特征,并设计了Contextual Heterogeneous Feature Fusion Model用于将音频模态的频谱特征与统计特征进行交互并进行情感预测。先前的工作,大多数研究者只使用一类音频特征,例如频谱特征或者统计特征,然而这些特征往往是异构的,它们包含了不同层面的信息。因此本文设计了一种Feature Collaboration Attention,用于融合音频模态的频谱特征和统计特征,从而捕捉到更丰富的情感信息。在国际公开标准数据集MOSI和MOUD上,该方法取得的音频情感分类性能均优于基准模型。(3)本文提出一种面向非对齐序列的跨模态情感分类方法。本文基于Transformer模型,提出了一种面向非对齐跨模态序列的Self-Adjusting Fusion Representation Learning Model。前人在多模态情感任务上的工作往往需要对音频与文本模态特征进行手工对齐,然而现实世界中音频模态与文本模态往往是非对齐的。本文所提出的方法可以直接从非对齐的音频与文本模态数据中学习融合表示,并分别利用音频和文本单模态特征表示来对融合表示进行调节。在国际公开标准数据集MOSI和MOSEI上,该方法在所有评价指标上均优于基准模型。(4)本文提出一种面向对齐序列的跨模态情感分类方法。本文基于预训练BERT模型,设计了一种面向对齐跨模态序列的Cross-Modal BERT模型。先前的工作往往聚焦于单文本模态来使用预训练BERT模型,本文通过引入音频模态来辅助文本模态更好地对预训练BERT模型进行微调,通过利用Masked Multimodal Attention来将音频模态与文本模态进行充分交互,从而来动态调节单词权重并获得更好的特征表示。在国际公开标准数据集MOSI和MOSEI上,该方法在所有评价指标上均优于基准模型。除此之外,本文对单词权重进行了可视化,通过对比引入音频信息前后单词权重的变化,也证明了该方法的有效性。结合深度学习技术提高跨模态音频情感分类任务的性能,对于人工智能领域的发展是十分重要的。实验证明本文提出的方法在相应的研究内容上均取得了较优的性能,具有一定的价值。在本文的最后也总结了在研究过程中遇到的问题以及对未来工作的展望。