弱监督时序动作检测算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:chxong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着视频数量爆发式增长,视频内容理解的相关算法得到了广泛的研究。目前视频内容理解主要包括动作识别、时序动作检测和视频描述生成等任务。其中,时序动作检测是指在未剪辑的视频中定位出动作的起止时间并且判断动作类别。全监督的时序动作检测算法需要对视频数据进行详尽标注,极高的标注成本限制了时序动作检测应用于实际场景。弱监督时序动作检测算法仅需视频级的类别标签,标注成本低且非常容易获得,具有重大的现实意义。故本文对弱监督时序动作检测算法进行研究,期望通过本文提出的算法提升弱监督时序动作检测模型的性能。未剪辑视频中不同动作片段持续时间的跨度非常大,并且弱监督的方法没有精确时间标注的先验信息,导致很难完整且准确的检测出动作片段。针对此问题,本文提出了时序特征融合模块,提取特征片段之间的上下文信息,并对具有不同时序信息的特征进行融合,提升动作片段检测的完整性。同时为了充分挖掘RGB特征和Flow特征之间的互补性,提高时序边界定位的准确性,本文提出了双流特征选择模块,更好地结合双流特征之间的优势,从而提升了弱监督时序动作检测模型的性能。未剪辑视频中不仅存在动作片段,还包含大量的背景帧,而弱监督方法在训练阶段仅依赖视频级的类别标签,忽略了背景信息,使得模型在动作片段检测的过程中容易将背景帧误检测为动作片段。针对此问题,本文提出了多分支背景抑制网络。该网络主要包括多分支基础模块和多分支抑制模块,通过使用不同的监督信号,使得多分支抑制模块能够抑制时序激活序列中背景帧的激活值,从而减少动作片段检测中的误检,提升弱监督时序动作检测模型的准确性。最后本文在THUMOS14和ActivityNet1.3两个通用数据集上进行对比实验和分解实验,验证了本文提出算法的有效性。
其他文献
受到传感器成像机理与材料工艺的限制,由传感器采集到的单一类型图像数据难以全面、准确、清晰地描述场景中的信息。多源成像传感器可提供同一场景下类型不同的图像数据。多源图像融合技术的目的是尽最大可能提取来自多源信道图像数据的互补信息,生成包含更多场景信息的融合图像。现阶段,多源图像融合技术在数码摄像、视频监控、医疗诊断和遥感目标检测等领域得到了广泛应用。本文针对多聚焦图像融合和红外与可见光图像融合中信息
随着深度学习的发展,人工智能对人类社会生活带来了很大的便利。视频文本描述作为视频内容分析的重要分支,推动着视频检索与视频个性化推荐的进一步发展。视频文本描述算法需要对视频中包含的视觉内容使用自然语言进行文本描述,且要求该描述语句具有准确性、可读性与流畅性。目前在基于编解码模型的视频文本描述算法的研究中,将视频高级语义信息作为视频语义特征,能够有效地辅助解码模型更准确的将视频视觉特征转化为文本描述。
面部表情识别在情感计算中占有重要地位,已被广泛应用于人机交互、驾驶者异常监测、疼痛估计、远程教育等领域。人类表达情感的方式并不相同,即使传递同一种情感,面部表情也因人肤色、性别等身份属性的不同存在差异。目前常用的深度学习方法能够有效地提取图像语义特征完成表情识别,但由于现有的表情数据集样本偏少,仍难以学习到与个人身份无关的表情特征。本文研究了基于情感特征解耦学习的表情识别方法以解决表情特征与身份特
大数据时代,数据以维数高、知识体系混杂、数据量大等特点呈现,给基于数据的研究带来巨大的挑战。维数约减是从高维数据中抽取知识、形成组织、发现内在规律,进而减小冗余、增强特征价值密度、提高后续计算效率的有效方法。非负矩阵分解(Non-negative matrix factorization,NMF)作为非线性且带有非负约束的矩阵分解降维方法,具有可解释性、计算简便、大规模处理数据等优点,因此广泛应用
目标跟踪是计算机视觉领域中的一个重要研究方向,已广泛应用在城市视频监控、城市智能交通、移动机器人目标跟踪、无人机飞行、虚拟现实和医学检测等多个研究领域。在实际应用中,常常出现目标遮挡、运动模糊、背景与目标相似、背景杂乱等情况,这些情况对跟踪算法的性能提出了很大的挑战。基于判别式分类器的目标跟踪算法因其效率高、效果佳的优势逐渐成为目标跟踪领域的主流研究方向,基于此,本文对基于判别式分类器的目标跟踪算
无人驾驶技术是一个庞大且复杂的系统性工程,但其核心始终离不开传感器、定位与导航技术。全球定位系统(CPS)作为目前主流的定位技术无法满足厘米级的定位和避障,且在室内和城市中无法做到全覆盖。而基于计算机视觉的定位技术很好的补充了 GPS这一短板。同步定位与建图(SLAM)旨在实现三维场景重建以及成像传感器的相机位姿估计。目前主流的SLAM算法对计算性能的要求较高,往往需要高性能图形处理单元(GPU)
结构光视觉测量法是一种基于光学的三维测量技术,现有的研究主要是针对静态对象的三维测量,这对于文物保护、医疗手术、工业元件制造等方面具有极大意义。但对于高铁轮毂、空气预热器转子这类测量精度要求高、停机损失大的动态旋转对象,三维测量技术并没有取得很大的进展。本文的研究重点就是实现对旋转物体的动态三维测量。本文基于线结构光法和双目立体视觉原理,提出了一种不干扰被测物体运行状态、操作简单、无需标定转轴的三
随着互联网上各种视频数据的爆发式增长,如何快速了解视频的主要内容,缩短浏览时长成为了一个亟待解决的问题。视频摘要通过提取视频中的重要帧或者片段,生成能代表原视频主要内容的短视频,可以给人们提供一种快速了解视频内容的方式,因此成为了目前的研究热点之一。本文基于对视频内容的分析来研究动态视频摘要生成算法,得到能够描述视频整体内容的摘要视频。将视频分为多个片段,估计所有视频帧的重要性从而衡量每个视频片段
智能可穿戴设备在近年来得到了迅速发展,各种各样的可穿戴相机在许多领域被广泛应用,提供了大量第一视角拍摄的视频数据。针对第一视角视频中的行为识别也逐渐得到更多研究人员的关注。对第一视角视频进行数据分析,可以实现对佩戴者的实时监控和状态评估,在医疗健康、虚拟现实、智能家居等方面具有重要应用。第一视角为分析人与物的交互行为提供了全新的观察角度。在第一视角视频中,无法获知第一人称的姿势信息,而且其头部运动
钢材作为最基础的生产原材料,在我们的国民经济和社会发展中扮演着重要角色。各个行业不仅对钢材等金属原材料的需求量急剧增加,对于钢材的精度要求也越来越高,尤其对于板材的横向和纵向厚度的精度要求提高。针对冷轧带钢工业现场的板形检测与控制的需求,提出一种基于图像传感器的板形检测方案,在合理的位置安装激光器与图像传感器,使激光器发出的线激光能够照射到带钢上,图像传感器能够拍摄到带钢以及线激光的反射光线。最终