论文部分内容阅读
随着腾讯视频、爱奇艺等视频网站的兴起,越来越多的人们通过视频的方式来分享自己对于事物的观点与评论,这些观点视频提供了大量的多模态样本,多模态情感分析也因此受到了来自学术界和工业界空前的关注。多模态情感分析任务与传统情感分析任务有所不同,不同点在于,传统情感分析任务只利用单一文本模态信息,而多模态任务除文本信息外,还会利用语音和图像等多种模态信息。信息类别的多样性使得样本的情感信息更加丰富,但也带来了困难与挑战。如何充分有效地利用多种模态信息是多模态情感分析任务的研究重点。本文广泛而深入地研究了基于多模态信息融合的情感分析方法,具体的研究内容可以分为以下三个方面:首先,本文提出了一种基于上下文增强LSTM的多模态情感分析方法。该方法能够有效捕捉多模态信息,同时引入各个模态的上下文信息来辅助情感分析。具体而言,首先,将多模态的每种表达与上下文特征结合起来;其次,对每个模态分别使用私有的LSTM层进行编码,以此捕捉各个单模态的内部信息;再次,将各个单模态内部信息特征拼接后,使用另外的LSTM层捕捉多模态交互信息;最后,将多模态交互信息特征降维后用于最终的情感预测。实验结果表明,本文提出的基于上下文增强LSTM的多模态情感分析方法,能够有效利用上下文信息辅助多模态情感分析任务,性能优于其他基线方法。其次,本文提出了一种基于层次化门控机制的多模态情感分析方法。该方法利用层次化门控机制过滤各个模态以及各个时间步的冗余信息,筛选出有助于情感分析任务的有用信息。具体而言,首先对每个模态使用双向LSTM进行单独编码,该步骤旨在捕捉单个模态的内部信息。其次,使用两层门控合并各个模态的内部信息,捕捉模态间的交互信息,第一层门控被称为模态门,作用是控制每个模态的信息量,第二层门控被称为时序门,作用是控制每个时间步的信息量。最后,使用最大池化层用于特征降维,并将降维后的特征用于预测层进行预测。实验结果表明,本文提出的基于层次化门控机制的多模态情感分析方法性能明显优于其他基线方法。最后,本文提出了一种基于模态融合循环网络的多模态情感分析方法。具体而言,首先,针对传统方法在对单个模态建模时无法考虑其他模态的影响,导致单模态信息表达能力低的问题,提出了一种长短期融合记忆网络(Long-short Term Fusion Memory,LSTFM)来对各个模态进行建模,长短期融合记忆网络的最大特点是可以在对单个模态建模的同时考虑其他模态的信息,大大提高了单个模态的建模信息表达能力,并在一定程度上增强了模态间的交互;其次,使用注意力机制来进一步融合不同模态信息;最后,使用另一个循环结构来对融合后的多模态信息建立上下文联系,得到多模态特征表示,并利用最终的多模态融合特征进行情感预测。实验结果表明,本文提出的基于模态融合循环网络的多模态情感分析方法能够有效捕捉多模态情感信息,在多模态情感分析语料上性能优异,明显强于其他的基线方法。