【摘 要】
:
视频行为分析是计算机视觉领域重要的研究课题,在智能安防、医疗监护、人机交互、虚拟现实、自动驾驶等领域有着广泛的应用价值,其目的是利用计算机检测视频序列中运动数据获得符号化的动作信息,然后从动作符号中抽取动作特征并进行理解从而实现动作分类或检测。然而,由于视频内容的复杂性和行为的多样性,行为分析任务面临着巨大挑战。现有的视频分析方法虽然能够较好地完成相应视觉任务,但是存在一定的局限性。现有识别和检测
论文部分内容阅读
视频行为分析是计算机视觉领域重要的研究课题,在智能安防、医疗监护、人机交互、虚拟现实、自动驾驶等领域有着广泛的应用价值,其目的是利用计算机检测视频序列中运动数据获得符号化的动作信息,然后从动作符号中抽取动作特征并进行理解从而实现动作分类或检测。然而,由于视频内容的复杂性和行为的多样性,行为分析任务面临着巨大挑战。现有的视频分析方法虽然能够较好地完成相应视觉任务,但是存在一定的局限性。现有识别和检测的模型多数局限于常规卷积的采样方式,难以描述行为的复杂的形变位移过程;复杂多变的背景噪声和相机位移的作用,使得视频包含大量冗余信息;复杂视频场景中蕴含着丰富的时间线索信息,模型难以对其充分利用来对行为进行表征。为此,本文从行为分析的人物外观特征出发,结合可变形卷积层对感受野的自适应性,在深度卷积网络中引入注意力机制,充分挖掘时空语境信息,提取视频特征中关键区域的显著性信息,强化行为表达过程。针对上述问题,本文的主要工作如下:(1)针对现有行为识别方法难以提取多形变的视频对象特征,本文使用可变形卷积和深度残差网络相结合的方法来对视频几何形变目标进行特征表达,设计了一种基于空间关注度的可变形卷积模块,通过提取输入数据的多视角特征来学习时空线索。在该模块的特征融合阶段,使用注意力机制让模型自适应地关注有效信息,提高行为分析效率。实验结果表明,本文提出的可变形卷积模块能够充分利用时空信息,在UCF101和HMDB51数据集上的准确率达到90.4%和64.8%,优于大多现有方法。(2)针对现有动作检测方法难以充分挖掘场景中语境信息,为了更加准确地对视频动作目标进行提议,本文结合可变形卷积,提出了基于多模态特征的动作检测方法,利用三维卷积和二维形变卷积分别学习帧间时序信息、光流信息和关键帧空间信息,并引入位置注意力机制和通道注意力机制对融合特征分配关注度权重,抑制冗余无效信息,实现对场景特征的充分有效利用,改善动作检测的精度。实验结果表明,该方法在UCF101-24和J-HMDB-21数据集上的检测结果优于大多数现有方法,提取的特征更充分,检测能力更强。
其他文献
随着人工智能的兴起,深度学习发展迅速。然而传统深度学习在实现时需要大量的标注样本进行深度模型的训练,成本高昂。因此,如何让深度模型减少对训练样本数量的依赖,即实现小样本学习成为了研究的关键。基于度量学习的小样本学习方法简单高效,其主要通过将样本映射到特征空间中再进行距离度量实现。本文基于度量学习方法,首先通过多尺度特征提取网络和图神经网络提高基础方法挖掘样本特征信息的能力,再优化传统类表达特征计算
人体姿态估计的目标是定位图片中所有人的关节点,它可以应用到人体行为识别、虚拟现实等领域。近年来,基于卷积神经网络的人体姿态估计方法虽然已经取得极大进展,但仍存在一些问题:(1)不精确的监督信息导致模型退化。(2)在多尺度特征融合过程中,不同尺度特征之间的关系被忽视了。(3)由于参数量多,计算量大,这些模型无法在资源受限的设备上使用。为此,本文结合精确监督、注意力机制和知识蒸馏,来研究人体姿态估计的
随着无人机和计算机视觉的快速发展,基于无人机的智能目标跟踪系统在交通监控、军事反恐侦察和森林防护等很多领域均有广泛应用。航拍视频中的目标跟踪有以下特点:1)目标仅由几个像素组成,其大小与噪声非常相似;2)安装有摄像机的无人机设备的运动是任意的、不受约束的;3)感兴趣目标相对于摄像机的运动是独立的,因此有时物体可以在任意点离开或进入摄像机的视场;4)物体的外观和形状因光照和姿态的变化而变化;5)相机
高光谱遥感图像分类是遥感图像自动理解的一项基本任务,也是深度挖掘遥感信息的前提保障,在自然灾害检测、地理图像检索、环境监测等领域有着广泛的应用。随着遥感卫星技术的日新月异,获得遥感图像分辨率愈来愈高,也正因为遥感图像分辨率不断提高,可以从图像中提取更多有用的信息。然而,由于高光谱遥感图像的分辨率不断提高,其图片复杂的空间结构和信息冗余都为场景分类任务带来新的挑战:不同场景类别之间不仅存在一些相同的
社会关系作为我们日常生活中的基本关系,是人类社会特有的现象,随着各类社会媒体的发展,社会关系有了更加直观的表现形式,识别图像视频数据中的社会关系,对分析社会行为来说至关重要。然而,面对如此海量的图像视频数据,如何高效地对复杂场景中的特征和交互信息进行形象化的描述,进而准确地识别社会关系,仍然是一个具有重大挑战性的任务。现有的社会关系识别方法虽然能够识别出场景中的社会关系,但是仍然存在一定的局限性。
基于信道状态信息(CSI)的动作识别近年来发展迅速,与基于图像,穿戴设备等方式的动作识别相比它具有保护隐私,无需光照,方便等优点。但是目前大多数CSI动作识别系统在新环境中使用或识别新类型的动作时,都需要重新收集大量样本并重新训练模型,这大大降低了CSI动作识别的实用性。为了解决这个问题,本文设计了一种基于元学习的CSI动作识别系统,当将其用于新环境或识别新类型的动作时,它只需很少的数据对模型进行
合成生物元件(Bio Brick)是符合合成生物学装配标准的基因片段。合成生物元件数量急剧增长导致数据质量问题变得复杂而有争议。本文通过比较多种机器学习方法,构建数据驱动的合成生物元件质量评估方法,减轻领域内研究人员逐一判断合成生物元件质量的负担。本文从被分类模型准确识别的能力以及与同类型数据形状保持一致的能力,即准确性和一致性两个维度提出合成生物元件质量评估方法。(1)基于准确性的合成生物元件数
多源遥感图像融合是指将同一区域不同传感器的多幅遥感图像加以综合,通过特定的技术合成一幅新图像的过程。合成孔径雷达(Synthetic Aperture Radar,SAR)和多光谱图像因成像机理不同,而具有较大的差异。SAR图像具有强大的穿透力,不受恶劣天气影响,能够全天时全天候成像,表征丰富的地表纹理和结构特征。多光谱图像含有丰富的光谱信息,可以有效识别不同类型的地物信息,具有优越的目视效果。因
协同过滤技术由于其灵活性、高性能等特点被广泛应用在推荐系统中。传统的协同过滤方法基于矩阵分解的方式,对用户和产品表征进行建模,以获得用户对产品个性化的兴趣偏好,但是其性能往往受限于用户评分数据的稀疏性。近年来,随着图卷积网络的发展,基于图的推荐算法成为了研究热点。图卷积网络通过迭代式的邻居聚集方式将图结构信息编码在节点表征中,可以有效的缓解评分数据的稀疏性问题。尽管基于图卷积网络的推荐算法在推荐精
光学成像技术作为人们认识世界的一种视觉方式,已经成为现代社会科技发展一个重要的方向。随着科技的迅速发展,如何解决复杂场景的散射介质视觉成像和获取有效的信息进行目标重建成为当下研究的热点话题。由于光在传输过程中散射效应是无法避免的,光携带的目标信息会发生畸变,因此,传统的光学成像技术受限,造成成像模糊、散斑等问题。近年来,偏振信息与光的强度、相位、波长这三个基本属性应用的领域越来越广泛。偏振信息已被