基于视觉—语义关系的行为识别方法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:XX200003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着近几年深度学习技术的兴起,基于计算机视觉的行为识别问题得到了普遍的关注且取得了较大的发展,在安全监控、医疗监护、人机交互、自动驾驶和无人商店等领域有广泛的应用前景。目前大多数行为识别方法只能识别单人的行为,并且只能识别诸如行走、跑步、跌倒等少量限定类型的行为,无法对场景中人和环境物体的大量交互行为进行检测。在复杂和背景剧烈变化的场景中,使用人工构造的特征的行为识别方法对环境变化、物体形变和遮挡的鲁棒性较差,造成识别准确率较低。此外,由于待处理的图像数据信息量大,目前大多数基于计算机视觉的行为识别方法计算复杂度高,无法实现计算的实时性。针对上述问题,本文的主要研究工作如下:(1)针对视频中的行为识别问题,提出了一种结合三维卷积神经网络和循环神经网络的长-短期时空视觉模型(Long-Short Term Spatio-Temporal Visual Model,LSTVM)。该方法首先利用三维卷积神经网络提取视频中的短期时空视觉特征,然后将具有通用性的短期特征输入一种改进的循环神经网络,提取特异性的长期行为特征。实验结果表明,LSTVM方法在UCF101数据集上取得了87.6%的准确率。(2)为了提高视频中的交互行为的识别准确率,在研究工作(1)的基础上研究了视频中的交互行为识别的优化问题,提出了一种融合人-物体视觉关系的长-短期时空视觉模型(Long-Short Term Spatio-Temporal Visual Model with Human-Object Visual Relationship,HOVR-LSTVM)。该方法首先利用基于卷积神经网络的物体检测器获取人和物体的语义和空间位置信息,然后构造语义-空间位置特征并与短期时空视觉特征进行特征融合。实验结果表明,HOVR-LSTVM方法在UCF101数据集上将准确率提高到了92.5%,已超过了当前同类方法。此外,相比于其它基于光流信息的行为识别方法,HOVR-LSTVM方法计算复杂度低,计算速率达到了125.2帧/秒,实现了识别的超实时性。(3)针对人和物体交互行为的检测问题,提出了一种融合注意力机制的视觉-语义模型(Visual-Semantic Model with Attention Mechanism,VSM-AM),实现了同时对图像中多个人-物体交互行为进行检测。该方法包括以下三方面内容:一是利用基于卷积神经网络的物体检测器提取人和物体的语义和空间位置信息,并提出了一种3通道空间位置模式图的方法构造人-物体空间位置特征;二是利用卷积神经网络提取人和物体的通用视觉特征,并提出一种注意力网络(Attention Network,AN)构造空间视觉特征;三是利用词嵌入方法将物体的语义信息编码为语义特征,并提出一种融合语义特征的动作分类器对交互行为进行分类。实验结果表明,VSM-AM方法在HICO-DET数据集上取得了21.30%的平均精度均值(mean Average Precision,mAP)和56.9%的Top3-召回率,超过了当前同类方法。此外,VSM-AM方法的计算速率达到了7.8帧/秒,实现了检测的实时性。
其他文献
面包中添加大豆分离蛋白,可有效提高其营养价值和功能特性。本实验对向面包粉中单独添加大豆分离蛋白和添加大豆蛋白及乳化剂(硬脂酰乳酸钠,SSL)混合体的面包面团的流变学特
【目的】比较分析两个意蜂品种及其杂交子代间的形态特征差异和杂种优势情况,为进一步探究两个意蜂品系杂交子代的生产性能和杂种优势提供理论依据。【方法】采集意大利蜜蜂
一、近十年我国存款准备金率调整的效果1998年之前,我国普遍实行高准备金率.到了1998年,为了避免亚洲金融危机导致国内经济"硬着陆",我国调低了法定存款准备金率,由13%下调为
英语是基础教育阶段的必修课程,与城镇地区相比,农村中学的英语教学现状不容乐观,农村初中生在英语学习中存在许多障碍和困难。本文笔者经过十多年的英语教学,发现要提高农村
随着计算机硬件设备的低功耗、小型化、微型化和高宽带网络及无线移动网络技术的不断成熟,将计算能力嵌入到各种设备中实现实时处理和联网使用成为现实,并且越来越普遍。在这
本文是根据霍尼维尔公司(Honeywell)的 AIRS 技术说明文件编译而成的。该技术说明对 AIRS 的系统总体、平台结构、惯性元件、流体元件、电子系统、姿态读出系统、信息交换、
在当前的对外汉语教学中,教师的讲解主要利用汉语拼音、汉字、图片和音频等形式进行,很少提供词汇在日常生活中真实多样的交际场景,相对缺乏对汉语所在语境的构建。视频语料
目的本研究分析不同的转运方式的STEMI患者以首次医疗接触至再灌注时间(FMC-to-B)为基础的各救治时间段,探讨与指南的差距。方法选取2012年1月至2015年10月解放军第三〇六医
素质教育的一个重要板块就是激励性教育,进行激励性教育的有效途径就是课堂评价。评价是构成课程教学的一个有机环节,也是让学生明确在群体中所处位置,并在现有基础上切实谋
根据发达国家经济发展经验,第三产业的发展能够有效地拉动就业的增加。同样就业的增加也会反过来拉动经济的发展。通过对第三产业经济增长和就业关系进行ADF检验、协整关系检