论文部分内容阅读
伴随着近几年深度学习技术的兴起,基于计算机视觉的行为识别问题得到了普遍的关注且取得了较大的发展,在安全监控、医疗监护、人机交互、自动驾驶和无人商店等领域有广泛的应用前景。目前大多数行为识别方法只能识别单人的行为,并且只能识别诸如行走、跑步、跌倒等少量限定类型的行为,无法对场景中人和环境物体的大量交互行为进行检测。在复杂和背景剧烈变化的场景中,使用人工构造的特征的行为识别方法对环境变化、物体形变和遮挡的鲁棒性较差,造成识别准确率较低。此外,由于待处理的图像数据信息量大,目前大多数基于计算机视觉的行为识别方法计算复杂度高,无法实现计算的实时性。针对上述问题,本文的主要研究工作如下:(1)针对视频中的行为识别问题,提出了一种结合三维卷积神经网络和循环神经网络的长-短期时空视觉模型(Long-Short Term Spatio-Temporal Visual Model,LSTVM)。该方法首先利用三维卷积神经网络提取视频中的短期时空视觉特征,然后将具有通用性的短期特征输入一种改进的循环神经网络,提取特异性的长期行为特征。实验结果表明,LSTVM方法在UCF101数据集上取得了87.6%的准确率。(2)为了提高视频中的交互行为的识别准确率,在研究工作(1)的基础上研究了视频中的交互行为识别的优化问题,提出了一种融合人-物体视觉关系的长-短期时空视觉模型(Long-Short Term Spatio-Temporal Visual Model with Human-Object Visual Relationship,HOVR-LSTVM)。该方法首先利用基于卷积神经网络的物体检测器获取人和物体的语义和空间位置信息,然后构造语义-空间位置特征并与短期时空视觉特征进行特征融合。实验结果表明,HOVR-LSTVM方法在UCF101数据集上将准确率提高到了92.5%,已超过了当前同类方法。此外,相比于其它基于光流信息的行为识别方法,HOVR-LSTVM方法计算复杂度低,计算速率达到了125.2帧/秒,实现了识别的超实时性。(3)针对人和物体交互行为的检测问题,提出了一种融合注意力机制的视觉-语义模型(Visual-Semantic Model with Attention Mechanism,VSM-AM),实现了同时对图像中多个人-物体交互行为进行检测。该方法包括以下三方面内容:一是利用基于卷积神经网络的物体检测器提取人和物体的语义和空间位置信息,并提出了一种3通道空间位置模式图的方法构造人-物体空间位置特征;二是利用卷积神经网络提取人和物体的通用视觉特征,并提出一种注意力网络(Attention Network,AN)构造空间视觉特征;三是利用词嵌入方法将物体的语义信息编码为语义特征,并提出一种融合语义特征的动作分类器对交互行为进行分类。实验结果表明,VSM-AM方法在HICO-DET数据集上取得了21.30%的平均精度均值(mean Average Precision,mAP)和56.9%的Top3-召回率,超过了当前同类方法。此外,VSM-AM方法的计算速率达到了7.8帧/秒,实现了检测的实时性。