行为识别中视频时空建模及其鲁棒性研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:abc1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联技术的发展和便携数据采集设备的普及,视频数据非常容易获取并成为生活中传播信息的重要载体,同时它也促进了人们获取信息途径和分享生活的方式,基于这些视频数据的信息挖掘和内容理解是引领城数字经济发展的重要选择。视频行为识别任务作为视频分析和理解的重要研究内容之一,不仅有着重要学术意义,而且存在广泛的应用前景。面对快速增长的视频数据,利用深度学习技术进行行为识别已成为主流的方式,如果只是简单的应用深度网络,很难挖掘有复杂结构的视频中的本质特征,为了高效分析视频以识别视频中的行为,需要考虑以下三点:(1)合理分析视频时空结构;(2)减少对标注数据依赖;(3)进行模型安全分析。这三个方面的研究核心在于探索鲁棒的视频时空分析理解技术,本文基于这种考虑,开展一系列包括有监督视频行为识别方法、无监督视频表征方法、基于视频行为识别的对抗攻击方法的研究,并着重探讨其中的难点和后续的研究开展方向;主要的工作如下:(1)提出了基于时域推理图的视频行为识别模型。虽然现在的基于深度学习的视频行为识别方法相较于传统方法有很大进步,但它们大多只考虑短程时序建模,对细粒度的动作关联和长程的行为依赖结构关注较少,而对视频中时序依赖的探索是复杂行为识别中必不可少的部分。本文方法构建多头时序邻接矩阵来表征行为间的动作粗细粒度依赖关系,避免了无法进行时序建模和只能进行长程尺度的粗粒度动作关系建模问题;同时以该多头邻接矩阵为基础进行图卷积,对视频中的长短动作时序关系进行推理,并应用新创建的多头语意融合器对各种类型的动作关系进行特征语意融合,从而提高了视频行为的类别识别准确度。在主流的基础数据集上,本文方法取得了最优的结果,后续的消融实验也证明了时域推理图可以提取有判别性的特征。(2)提出基于图对比增强的视频自监督表征学习方法。将图像邻域的对比学习方案扩展到视频领域需要考虑序列型数据间的时序结构特性。基于这种考虑,本文方法提供了一个新的视角来研究视频中的时序结构,具体地,提出一种构建时域图方法和设计一种在该时域图基础上进行图数据增强方法,以高效的利用视频中帧相关性特性来进行视频帧序列对对比学习。首先,利用关联视频特征间局部相似性进行时域图构建,然后在时域图的基础上提出新颖的图增强方法进行视频表征学习,该增强方法主要是通过对时域图进行加噪扰动,扰动后的时域图增加了多样性但仍旧保留了完整的视频结构特性;最终,本文应用两种新颖的对比学习方案来训练所提出的框架,并以隐藏在视频背后的本质结构特性作为自监督信号。实验部分,本文方法在一系列下游任务如视频行为识别、视频检索上,验证本文方法的有效性。(3)提出基于视频自监督课程学习的视觉和语音关联性增强方法。合理的利用语音和视觉的并发特性特性,不仅可以减小人工标注的成本,而且可以更高效的提取视觉和语音特征。但现在的大多工作只是关注两个模态间共享关联信息,很少单独考虑每个模态中特有信息。为了解决这些问题,本文方法可以考虑语音和视频帧序列对不同模态间的关联性,同时关注单模态本身的结构特性。具体地,在教师-学生迁移框架下提出一种两阶段的学习方法来进行语音和视频帧序列对对比学习,以克服直接进行教师-学生移学习的困难性;其次,利用语音和视觉信息的关联性作为潜在自监督信号进行对比迁移训练;最终,利用教师-学生结构下学习的语音和视觉表征进行下游视频动作和语音识别测试。后续的实验也验证这种方式进行视频中视觉和语音表征学习有利于下游任务如动作识别和语音识别。(4)提出基于视频动作识别模型的采样不敏感对抗攻击方法。尽管基于深度学习的动作识别模型在公开数据集上获得取得长远的进步,但它们对实际输入数据的扰动噪声鲁棒性问题上研究较少。本文在图像对抗攻击的基础上研究视频动作识别模型的鲁棒性问题,考虑了视频的时序冗余特性,所提出的方法可以生成一种对采样方法不敏感的对抗扰动,保证对视频中任意的采样帧进行攻击处理后仍然可以让视频识别模型错误分类。首先,提出一种时序连贯性正则化算子,它以扰动后序列帧的信息增益来挖掘攻击后的视频帧的时序信息;其次,提出一种高效的近似梯度优化算子来迭代生成对抗扰动,以保证对抗方法对采样不敏感;最终,提出一个攻击校验约束来调整上述的对采样不敏感的扰动,达到最终的视频动作识别对抗攻击目的。实验部分结果表明本文方法有更好的攻击性能。
其他文献
深空探测作为人类太空探索的重要活动之一,是人类认识自己、认识宇宙最直接的方式。而100天文单位的太阳系边际探测作为当前人类的深空探测中距离最远的一类型任务,一直是国际空间科学研究的前沿领域。而在探测任务中,地面如何在如此遥远的距离上、如此微弱的信号下对航天器距离、速度和角度等参数测量,如何在长达数十年的任务周期中提高任务成功率,如何在单次任务中尽可能实现多的科学探测任务,都是在我国未来的100天文
学位
在日常生活中,常常采用生物特征识别技术保护个人隐私和信息安全。指静脉识别技术依靠手指掌侧浅静脉进行身份识别,具有安全性高、活体识别、精度高等优点,是生物特征识别领域的研究热点。针对现有传统的基于特征提取以及基于机器学习的手指静脉识别模型的不足,本论文以手指静脉图像为研究对象,以深度学习技术、度量学习技术为理论基础,利用深度度量学习方法、深度生成模型以及增量学习方法对指静脉图像识别问题展开研究,并通
学位
人类科技的繁荣带来电子技术的发展和航空航天的进步,导致日常生活因为使用更多的电子产品和空间通信,从而更容易受到日地之间空间环境的影响。因为地基望远镜比空间望远镜更易于安装和维护,且更加稳定,所以目前最常用的太阳望远镜都是地基的。地基望远镜系统的天文观测由于大气湍流的存在导致光波的严重波前畸变,直接观测成像的分辨力远远达不到所期望的望远镜理论衍射极限。当从地球观测太阳时,这些影响尤其严重。自适应光学
学位
抖动作为衡量数据传输稳定性和可靠性的核心指标,在超大规模集成电路(Integrated Circuits,ICs)、高速串行链路(High-speed Serial Links,HSSLs)以及云计算(Cloud Computing)的测试分析中发挥重要作用。随着数字技术的飞速发展,抖动测试、分析和定位等相关技术的研究已经滞后于数字系统工作速率的快速提升。抖动分析建模技术已经逐渐成为高速数字系统设
学位
随着社会发展对清洁能源需求的提高,特别是个人便携式电子设备和电动汽车数量需求的快速增长,发展新型电化学储能设备受到了人们极大的关注。其中,钠离子电池因丰富的钠源储量,以及与锂相似的物理化学性质,被广泛认为是未来最有潜力的电网级能量存储与转换设备。然而,与传统的锂离子电池相比,有关钠离子电池的深入研究还处于起步阶段。尤其是,至关重要的电极材料在钠离子电池中的微结构与相演变行为,离子传输的动力学过程,
学位
声学多普勒测流技术是一种在水下利用声波测量水体流速等特性的遥测技术。由于具有不干扰水流场、测量速度快、测量精度高、测量参数多和测量成本低等诸多优势,声学多普勒测流技术被广泛应用于海洋、江河、湖泊和沟渠等多种环境的水体测量。由于测流环境具有多样性、时变性和复杂性,为在多种环境中实现高性能测量,需要赋予测流仪器适应环境的能力。本文以提高声学多普勒测流仪器的环境适应性为目标,分析了几种典型环境因素对测流
学位
关系抽取是自动从文本序列中检测和识别出实体之间语义关系的任务。该任务是知识工程中知识获取的核心基础技术,能够赋予人工智能更精准的知识理解能力。知识获取依赖于人类知识载体之一的海量文本数据,而这些文本数据随着信息的爆炸式增长被快速淹没在信息浪潮中。因此,挖掘这些文本数据中所蕴含的知识,既是自然语言处理的理论需求,也是人类文明传承的现实需要。目前,基于深度学习的自然语言处理技术在关系抽取领域已经取得长
学位
风力发电作为一种低碳清洁的可再生能源发电方式,有着广阔的发展前景。目前,风力发电机正朝着永磁直驱与单机大容量的方向发展。本文面向大型永磁直驱风力发电机,研究新型低空间谐波模块化分数槽绕组,可促进大型风力发电机模块化设计技术水平的提升,因此具有重要的理论意义与工程应用价值。本文首先详细研究了传统多相对称交流绕组的磁动势构成,建立了多相对称交流绕组的磁动势谐波分析方法。据此提出了一种新型低空间谐波模块
学位
图像和视频的超分辨率(Super-Resolution,SR)算法研究是计算机视觉领域的一个重要问题,它能恢复原始数据由于远距离传输、压缩等造成的数据分辨率损失。通过对低分辨率数据的超分辨率重建,可以获得高分辨率的数据内容,极大改善视觉效果。在多媒体时代,图像和视频是我们日常接触最多的数据,为了提升降质数据的视觉效果,产业界以及学术界都致力于利用大数据的优势发展新型的超分辨率算法。得益于深度学习的
学位
细菌的趋化性自1881年被Engelmann首次观察到以来就引起了许多研究者的兴趣。为了从数学上描述细菌趋化性导致细菌种群聚集现象,Keller和Segel在1970年提出了著名的Keller-Segel模型,它是由两个抛物型偏微分方程耦合而成。自此,描述细菌趋化现象的偏微分方程就受到生物学家和数学家的广泛关注。考虑到细菌或微生物通常生活在粘性流体中,Tuval等人在2005年进一步提出了具有化学
学位