基于深度学习的视频行为识别研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:resway
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体和互联网技术的发展,视频数量飞速增加,使得视频智能化应用的发展受到了广泛关注。视频行为识别旨在对视频内容进行理解,以准确识别视频中目标的运动类别,其在视频检索、智能监控、人机交互领域具有广泛的应用前景,目前已成为计算机视觉领域的热点研究课题。视频行为识别的关键在于获取能够准确描述视频内容的特征表达。近年来,深度学习在特征学习方面表现出了优异的性能,被广泛应用于各类计算机视觉任务中。本文以提高视频特征表达能力为目标,开展了基于深度学习的视频行为识别研究。
  本文提出了一种基于通道级时域注意力网络的视频行为识别方法。首先,采用时域信息聚合模块,将视频中的采样帧作为输入,获取帧级特征表达以及全局特征表达。该全局特征表达用于注意力得分的提取,从而挖掘时域上下文相关性。然后,提出了通道级注意力生成模块,将上述获得的全局特征表达作为输入,提取各帧级特征向量的通道级时域注意力得分。最后,以通道级时域注意力得分作为权重,将帧级特征融合为视频级特征表达,从而突出视频中的细粒度关键信息。两个公开数据集上的对比实验结果表明,所提出的方法能够获得较好的识别性能。
  本文还实现了一种基于门控注意力单元的视频行为识别方法。首先,基于特征筛选模块,利用门控函数对视频特征进行筛选,保留与目标行为相关的关键信息。然后,设计了特征融合模块,采用特征筛选模块输出的视频特征作为引导信息,提取帧级特征的注意力得分。由于特征筛选模块输出的视频特征中保留了与行为相关的关键信息,将其作为引导信息能够提升注意力得分的有效性。最后,采用注意力得分作为融合权重,通过加权求和的方式将帧级特征融合为视频级特征,实现视频特征的优化。公开数据集上的实验结果表明,该方法获得了良好的视频行为识别性能。
其他文献
水声通信技术作为智慧海洋工程中的一项重要技术,经历了近半个世纪的发展。针对水声通信网络层技术的研究层出不穷,大大提升了水声通信系统的可靠性和有效性。随着水声通信技术的发展,水下节点间无线组网通信受到了广泛关注,使水声传感器网络(Underwater acoustic sensor network,UASN)的工程化成为可能。在UASN中,端到端可靠传输一直是该领域备受关注的研究热点之一。论文以国家
无线通信网络正处于一个机遇与挑战并存的深度变革期。为了满足呈指数级增长的用户业务需求,无线通信网络的布设结构正逐渐向密集化和不规则化演进。与此同时,为了提高日益紧缺的可用频谱资源的使用效率,无线通信网络中的多址接入技术由正交模式向非正交模式转变。面对标新立异的通信技术,亟需充分挖掘网络参数与网络性能之间的内在联系,探究网络性能随网络参数的变化规律,并以此为理论依据进一步指导优化网络设计。然而,在形
近年来,随着多媒体技术的发展,立体图像受到越来越多的关注,而立体图像在采集、压缩、传输、显示等过程中均会产生降质问题,立体图像的质量会直接影响人们的观看体验,因此,亟需一种有效的评价方法对立体图像质量进行评估,好的评估方法还可以刻画与之相关的各种图像处理技术的优劣,并据此加以改进。  深度学习,尤其是卷积神经网络在最近几年得到了快速发展,在图像分类和物体检测等领域中都得到了很好的应用。卷积神经网络
随着计算机网络和移动端通信设备的长足发展,社交网络作为人们相互沟通的一大载体,在人们日常生活中占有着至关重要的部分。社交网络的数据载体很丰富,无论是文字、图片以及视频都可以作为其传播的载体。越来越多的人倾向于从不同的社交网络来获取一个事物的评价,比如从团购应用的评论来获取对一个店面的评论,从视频中对产品的评测获取产品的信息等。所以对多模态的数据的处理,并且从多模态数据中获取情感标签中获取有用的信息
面部表情识别是计算机视觉领域的经典问题,它在人机交互、辅助驾驶、远程教育、医疗诊断等领域存在广泛的应用。随着卷积神经网络以及深度学习技术的发展,基于深度学习的面部表情识别取得了比传统方法更加出色的性能,但是依然存在着一些棘手的问题:  第一,小规模的面部表情数据集在卷积神经网络中容易产生过拟合。第二,面部表情特征与身份特征等其他非表情因素混合在一起,导致较大的类内差异,一些表情难以区分。第三,面部
学位
目标检测任务是图像视觉领域一项具有重大挑战性的研究课题。它要求计算机在一幅含有多目标物体的图像中,对感兴趣的物体进行分类,并且通过边界框标注出每个物体的具体位置。在实际应用中,目标检测在智能监控、空间遥感及医疗辅助诊断等方面具有非常重要的研究意义与价值。随着GPU计算性能的不断优化以及人工神经网络的深入研究,基于深度学习的目标检测算法在通用目标检测任务上取得了较为瞩目的成就,但对小目标物体的识别精
学位
图像修复的目的是对破损图像或部分物体移除后的图像进行修复,以保持图像的完整视觉效果。作为图像处理领域中的研究热点,图像修复技术在老照片修复、目标物体移除、特效制作等方面都具有重要的研究价值。  论文首先阐述了图像修复的背景和研究意义;概述了图像修复的过程,简要介绍了近年来比较流行的图像修复算法,重点讨论了两种大区域图像修复算法,并对这两种算法当前所面临的主要问题做了分析。  其次,论文对基于马尔可
学位
近年来,随着三维模型建模技术的发展以及低成本采集设备的出现,三维模型数据规模日益庞大,已经成为文本、图像、视频、音频以外的一种新模态大数据。由于三维模型能够更加真实的表征自然界中物体的空间结构特性和外观特性,三维模型已被广泛的应用于智能制造、数字娱乐和虚拟现实等领域。面对指数级增长的三维模型大数据,如何实现便捷的三维模型获取和管理已成为亟待解决的难题。因此,基于内容的三维模型检索关键技术成为了当前
极化码(Polar Codes)是基于信道极化(Channel Polarization)现象的一种新型信道编码。信道极化是指对N=2n(n为任意正整数)个相互独立的二进制输入离散无记忆信道(Binary-input Discrete Memoryless Channel, B-DMC)W,通过引入一些相关性操作得到一组有相互依赖关系的极化信道的过程。当参与操作的信道数量N趋于无穷大时,对应得到的
学位
图像质量对于各种图像任务都有着至关重要的作用,在一定程度上决定着任务的困难程度以及完成的效果,利用超分辨率技术恢复图像质量成为研究的热点,但是超分辨率重建任务是一个病态问题,因为要从低分辨率图像中恢复更高分辨率的图像。为了提高图像的分辨率,可以采用升级图像图像采集硬件或延长图像采集时间的方法,但是会增加系统成本,或是增加了对病人的辐射剂量等。因此,从软件的角度来提高图像分辨率是更好的选择,即通过超
学位