论文部分内容阅读
随着人工智能的高速发展,情感计算作为其分支领域也在不断地被研究者探究。情感计算主要有识别,表达和决策三个研究方向。其中,情感识别的研究更为广泛和深入。情感识别主要是研究如何让机器准确辨识人类的情感,并消除其不确定性和歧义性。人类的情感表达是多元化的,可以通过表情,语音,文本等非生理信号,也可以通过脑电,心电等生理信号。在非生理信号中,表情是最直接的一种表达方式。因此,很多研究者们致力于研究基于面部表情的情感识别,但这些研究大多数是基于静态表情图片。考虑到表情本身就是一个动态的变化过程,所以基于动态表情视频的情感识别会更加符合人类情感本身。在生理信号中,脑电信号与情感的联系较为紧密。由于脑电信号本身具有时空性,因此可以从脑电信号的特性出发进行研究,从而提高其识别率。但不管是基于表情还是基于脑电的情感识别,都是一种单模态的情感识别,它们仅仅是利用了情感的单特征表达方式。事实上,人类表达情感往往是伴随着多种方式,例如在高兴的时候,脸上会露出开心的表情,同时身体也会发生动作,说话的语调也会比较高亢。所以,利用多种模态的特征来进行情感识别符合人类本身表达情感的方式,也会提高其特征多样性,从而有利于后续情感识别的深入研究。本文的主要工作如下:选用12段比较经典的视频片段来诱发情感,其中正向,中性,负性三种情绪各4段,随机播放。通过实验室已有设备采集了 15名被试者在观看这些视频片段的表情变化视频和脑电数据。关于表情视频,本文进行了基于面部表情的情感识别研究。依据对原始表情视频数据的不同处理方式,将其分为基于静态表情帧和基于动态表情序列的情感识别。两者区别在于,前者是对单独表情帧进行处理,后者是对动态表情视频切分后的帧序列进行处理,最后得出分类结果。对于后者的的情感识别方式,本文分别采取了帧聚合,帧光流,帧时序三种不同方法进行研究。并将其与静态帧识别效果进行对比,结果表明,基于帧聚合的CNN表情识别率最高,达96.2%。关于同步采集的脑电数据,本文进行了基于EEG的情感识别研究。本文建立了三种不同模型,单通道LSTM模型,双通道LSTM模型以及CNN模型。单通道LSTM模型输入分为五类,Sms脑电数据,10ms脑电数据,以及小波变换特征提取后的3种特征(方差,能量和微分熵)。双通道LSTM模型输入分为3类,包括了小波变换后的两两组合特征。实验结果表明,基于10ms脑电数据单通道LSTM模型分类效果最好。相比单模态情感识别来说,多模态融合的情感识别能够利用特征多样性和特征相关性来提高情绪识别准确率。因此,考虑将视频表情识别和EEG情绪识别二者结合,利用表情和EEG的特征级融合来研究双模态情感识别,实现对情绪的三分类(积极,消极和中性)。首先对比现有的多模态融合方式,考虑选用基于深度学习的特征融合方式CNN-LSTM和LSTM-CNN。情绪分类结果表明,基于LSTM-CNN情绪分类模型准确率最高,达93.13%,更加适用于表情和脑电的融合分类,而且它的识别准确率比基于EEG的单模态情感识别要高。但是,它的识别效果比单模态表情识别要差。这表明在特征融合时,基于EEG的情绪特征的质量低于在表情特征。因此后续还需要对如何提高基于EEG的脑电特征进行改进,以及如何与表情特征融合进行更加深入的研究。