论文部分内容阅读
当前,社交媒体正在人们的日常生活中发挥着越来越重要的作用。诸如微信、微博、QQ等社交软件已经成为了人们日常交流不可或缺的工具。与此同时,情感识别作为智能人机交互的重要基础之一,也得到了长足的发展。社交媒体中经常会使用大量的文本、语音、图片等多源信息。因此,近年来面向社交媒体的多模态情感识别研究正成为业内研究的热点,对实现智能人机交互应用具有重要意义。考虑到语音、文本信息之间的内在关联性和互补性,本文重点开展融合语音文本的多模态情感识别研究,提出了基于深度学习的语音、文本信息特征提取方法;深入研究了语音、文本模态融合算法;设计开发了语音文本融合的多模态情感识别应用系统,实现了模型的可视化应用。论文的主要研究内容如下:1.研究了基于深度学习的单模态情感特征学习模型。考虑到不同模态之间的差异性,本文将卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆网络(Long-Short-Term Memory Network,LSTM)以双通道的形式结合起来,充分学习语音中的全局和局部情感特征;采用双向长短时记忆网络(Bid-directional Long-Short-Term Memory Network,Bi-LSTM)来捕获文本情感特征,使各个单模态的特征学习更加有效。在公开数据集IEMOCAP上,完成了相关的实验。实验结果表明:相较于其他模型,本文提出的单模态情感特征学习模型具有更高的识别准确率,验证了所提出的单模态特征学习模型的优越性。2.研究了基于深度学习的多模态融合情感识别模型。考虑到语音文本模态之间存在着关联性和互补性,本文通过特征融合的方法,对提取的单模态特征进行有效融合;并通过深度神经网络,对融合特征进行再次学习,提取出抽象的高级情感特征信息,用于进行最终的情感分析分类决策。最后,使用了正则化的方法,对模型进行了相应的优化,并在IEMOCAP数据集上达到了70.4%的识别率。该实验结果同其他研究结果相比,具有一定的优越性,充分验证了本文提出模型的有效性。3.设计开发了融合语音、文本的情感识别应用系统。融合语音与文本两种模态的情感识别的研究对于人机交互的实现有着良好的支撑作用。因此,本文提出了语音文本多模态情感识别应用系统框架。基于Python语言的UI(User Interface)开发工具包PYQT,设计和开发了情感识别系统。使用IEMOCAP数据集和录制数据进行测试显示,该系统能够有效应用多模态情感识别模型,识别出输入信息中包含的情感状态,具有较好实用性。