论文部分内容阅读
在人们的日常生活中,情感起到非常重要的作用:丰富的情感对说话人传达思想有着极大的帮助。同时,图像情感识别是人机交互的重要研究领域之一。近年来,针对大规模图像情感识别的很多工作,推动了图像情感识别方法及系统的快速发展。但是,因为情感存在一定的主观性,所以标注大规模的图像情感数据集会花费大量的人力和物力。相反地,互联网(Web)中存在大量的情感图像:根据图像情感关键词(例如,高兴、悲伤等)能够获得大规模带有嘈杂标签的情感图像。然而,如果直接使用这些带有嘈杂标签的Web情感图像数据集训练情感识别模型,会给识别模型带来负面影响。因此,如何直接通过带嘈杂标签的图像样本得到鲁棒的情感识别效果是Web图像情感识别领域的关键问题。此外,众多研究发现:图像的局部区域对情感识别有显著影响,但标注图像中的局部情感区域也会费时费力。在图像情感区域定位中,与传统目标检测不同的是:不仅仅图像中的对象会引发情感,而且图像中的背景也会引发情感。所以,在图像情感区域定位中,如何定位情感对象及背景区域也是Web图像情感识别领域亟待解决的问题。针对上述两个Web图像情感识别问题,分别提出一种基于注意力的嘈杂标签Web图像情感识别方法和一种基于弱监督的Web图像情感区域定位及情感识别方法。其中,所提出的情感区域定位方法为情感识别提供辅助作用,提高情感识别的效果。论文的主要内容和创新点如下:(1)提出基于注意力的嘈杂标签Web图像情感识别方法:针对图像情感数据集标注困难问题,提出一种新颖的注意力机制方法,抑制嘈杂标签对情感分类带来的负面影响,从而直接利用Web图像实现情感分类;同时引入特定情感类激活图,为每类情感学到特定的情感显著特征;最后引入三元组损失及中心损失,扩大不同情感类别之间的距离,缩小相同情感之间的距离,提高图像情感识别的鲁棒性。实验结果验证所提方法的有效性:数据集嘈杂程度达到25%时,仍保持鲁棒的情感识别准确率(数据集Flickr,80.73%;Instagram,77.05%);在数据集嘈杂程度达到50%时,在数据集Flickr和数据集Instagram上情感识别准确率均高于其他注意力机制约20%;在公开的情感数据集TwitterⅡ、EmotionROI、Flickr、Instagram上,情感识别的准确率也高于现有最佳方法约2%-3%。(2)提出基于弱监督的Web情感区域定位及情感识别方法:针对图像情感区域定位的问题,提出多核的区域生成网络,产生大量情感候选区域,并且通过多核的结构,使得候选区域同时包含图像情感对象及背景;其次,提出端到端的多示例学习损失,将从一类情感样本产生的候选区域组成正包,其他情感类别样本产生的候选区域组成负包,通过迭代学习得到最终的图像情感区域;最后,将获得的情感区域作为图像的局部信息,通过特征融合的方式,结合图像的全局信息,提高图像情感识别的准确率。实验结果验证所提方法的有效性:情感识别任务中,在公开数据集TwitterⅡ、EmotionROI、Flickr、FI上获得与现有最佳方法相当的情感识别准确率结果;情感区域定位任务中,在评价指标F1-Score及Recall上获得比现有最佳方法更好的结果;同时,通过情感区域定位辅助情感识别,情感识别的准确率比原情感识别任务提高约11%-13%。(3)设计并实现基于弱监督学习的Web图像情感识别原型系统:采用Matlab设计原型系统的操作界面,利用Tensorflow与Keras等Python语言框架实现系统的核心算法。原型系统包含四个模块:数据预处理模块、图像情感识别模块、情感区域定位模块及结果可视化模块。通过原型系统的实现,验证了本文所提方法的可行性和有效性。