基于多尺度注意力机制的人体行为识别方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:erdanws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子信息技术等相关技术的发展,视频已经逐渐成为生活中不可或缺的信息媒介。当前各种数字环境中存在的海量视频数据具有着极大的价值,因此,利用计算机进行视频的内容理解、信息挖掘已经成为研究者的重要课题。近年来,深度学习在图像处理等领域取得了前所未有的成功,这也促使了基于视频的人体行为识别技术的发展。目前行为识别领域还存在着诸多挑战,比如人体行为在类内和类间均有较大的变化,不同视角、不同速度下的同一类的行为实例间可能存在较大的差异,而有些不同类别的行为则可能具有相似的视觉节奏。同时,行为视频在时间和空间的多个尺度上均有丰富的信息,简单的模型无法同时捕获这些信息。本文立足于当前领域内的先进工作,研究了如何更好地探索时间信息,进一步地,引入多尺度的方法,以建模各种视觉节奏和不同尺度的时空信息。本文主要工作如下:考虑到3D卷积网络存在时间建模能力不足的问题,本文构建了一个时间聚合网络。首先,基于自注意力机制设计了一个时间聚合模块,旨在利用特征图内部的相关性,挖掘出视频中更多的时间关联信息,并聚合时间信息。然后,将时间聚合模块引入到3D Res Net中,构建了时间聚合网络,其中的主分支中的时间信息得到了强化,并且时间聚合分支额外挖掘了视频中更多的信息,强化了3D Res Net的时间建模能力。时间聚合网络在UCF-101和HMDB-51数据集上分别达到了91.79%和65.37%的准确率。视频中的人体行为具有复杂的时间结构,不同的行为类别天然地具有不同的视觉节奏,如走路和跑步。本文在时间聚合网络的基础上,进一步构建了一个多尺度空间多样性行为识别框架,融合了3D卷积网络不同深度的特征以建模多种视觉节奏。首先,引入了基于自注意力机制的空间注意力模块,通过探索特征图上各空间位置之间的相关性,获取空间注意力图,然后对不同的空间位置上的特征给予不同程度的关注。接着,引入了多尺度的方法,提出了基于多尺度的行为识别框架,建模多尺度的时空信息。进一步地,提出了空间多样性约束,使得不同尺度上的空间注意力尽量关注到空间上不同的位置,从而更充分地挖掘出不同尺度的空间信息,进而使得融合的多尺度特征中包含更全面的空间信息。多尺度空间多样性行为识别框架在UCF-101和HMDB-51数据集上分别达到了94.05%和68.72%的准确率。综上所述,本文引入了时间聚合模块并提出了时间聚合网络,解决了常规的3D卷积网络在时间建模方面能力不足的问题。然后引入了空间注意力模块、多尺度方法和空间多样性约束,并构建了多尺度空间多样性框架。本文的方法在两个具有挑战性的视频行为识别数据集UCF-101和HMDB-51上进行了实验。最终的实验结果证明了本文所提出的方法的有效性。
其他文献
近年来,数字化多媒体技术发展迅速,用户对数字化的图像和视频的需求量呈爆炸式增长。但是图像和视频的信息量相比于文本十分巨大,传输和存储需要大量的网络带宽和存储空间,因此需要对其进行数据压缩。目前,大多数的国际通用图像和视频压缩标准采用基于分块的DCT变化压缩编码技术。尽管这种技术可以提供相对接近原图的图像和视频,但其不可避免的会产生压缩伪影,包括块效应,带状效应和振铃效应。这些压缩伪影不仅影响用户的
学位
近年来,随着深度学习理论的兴起,计算机视觉的各个领域都得到了充分的发展。多目标跟踪技术作为计算机视觉中重要的组成部分,在这次深度学习浪潮中获得了长足的进步。由于多目标跟踪在军事、刑侦、商业分析等多个领域有重要的作用,因而对其研究有着重要的价值。相较传统方法,目前主流的基于深度学习的多目标跟踪算法已经有了显著的进步,但是人们对多目标跟踪算法提出了更高的要求,如实时高效跟踪、拥挤场景跟踪等。现有的跟踪
学位
随着电子信息技术的迅速发展,人们对光的认知不断地加深,不同波段光信息的获取变得尤为重要,通过光电传感器的数据采集与传输系统是获取光信息的重要手段。目前,大多数的数据采集系统可采集的通道数量有限且系统的功能也比较单一,难以根据光电传感器通道的数量进行灵活地扩展和系统升级。因此,本文根据多通道光电探测器阵列实际需求,研究探测器阵列、模拟信号调理模块、数据采集模块、信号处理模块与传输接口模块等结构及其相
学位
视觉目标跟踪是计算机视觉领域的一项经典研究课题,在视频监控、自动驾驶和人机交互等方面应用广泛。尽管对于目标跟踪的研究取得了很大进展,但单模态信息的局限性和不确定性影响跟踪效果,如可见光成像受光照、雨、烟和霾等环境条件的影响较大,红外成像虽受环境影响小,但其成像机理导致红外图像分辨率较低、纹理少,在热交叉条件下目标与背景难区分等。基于可见光和热红外(RGB/Thermal,RGBT)的双模视觉跟踪器
学位
随着机器学习、深度学习技术的进一步发展,基于表示学习的分类算法性能有了很明显的提升,但基于表示关系的算法大多仅通过原始样本的直接关系进行建模,而如何在子空间或表示空间也能够保持原始数据的相似性关系和空间结构,是提升表示学习模型性能的关键。本文立足于表示学习中的子空间学习、字典学习和深度字典学习,研究具有更高识别精度的表示算法。所取得的研究成果如下:(1)针对子空间学习算法或未能考虑样本的类标信息,
学位
肺癌是人类最常见的恶性肿瘤之一,同时也是全球癌症相关死亡的主要原因,每年导致大约180万人死亡,其中肺腺癌是一种最常见的肺癌组织学类型。近年来,尽管针对一些致癌驱动因素的靶向治疗以及针对免疫检查点的免疫疗法取得了显著的临床成功,但是仍然有很大比例的肺腺癌患者无法进行靶向治疗,而且还经常观察到对靶向治疗的耐药性。此外,免疫疗法的功效也仅限于某些患者,且在个体之间存在显著的差异。肺腺癌是一个动态的进展
学位
随着传感器和计算机技术的发展,人们见证了信息的超载和数据特征的爆炸式增长。通常这些数据具有数千甚至数十万个维度,严重制约了现实视觉任务的计算效率。为了解决这一问题,学者们提出了许多特征表示方法来挖掘数据中真正有用的信息。本文立足特征表示学习领域,分别围绕子空间学习、多视角学习和小样本学习任务,研究具有更高识别率的分类算法。论文所取得的研究成果如下:首先,针对基于协作图的判别分析(CGDA)没有充分
学位
医用射频消融技术是一种将射频电子电路技术和医疗科学相结合的技术,利用交变电流导入人体时产生的热效应达到切割、凝血、消融等不同效果。该技术具有微创、显著减少出血等优点并被广泛应用于各类肿瘤治疗与呼吸道治疗中。目前市面上实际应用的医用射频消融设备以欧美、日韩等国的品牌为主,国内相关设备的研发起步较晚,并存在一定的问题。因而,研发具有自主知识产权的高精度医用射频消融技术具有重要意义。本文首先对射频电信号
学位
基于深度学习的医学图像分割算法往往需要大量的标记样本用于网络训练。然而,医学图像的像素级标记成本较高、难度较大,且需要具备专业知识。这导致目标域中通常不存在手工标注的样本。并且,由于医学图像的异构性与复杂性,来自不同成像设备的数据之间存在分布差异,这种分布差异构成的域偏移会使得在源域上训练得到的分割模型应用于目标域时的性能发生退化。利用迁移学习的思想,将源域中的知识迁移到无标记的目标域上,是解决以
学位
伴随着人工智能技术的日渐成熟,“智慧城市”这一词汇逐渐被人们所关注。图像的语义分割作为计算机视觉领域中的重要任务之一,在建设“智慧城市”的进程中起到重要作用。比如,在自动驾驶领域中对传输图像进行语义分割帮助车辆进行路线的规划;对飞机着陆前拍摄的俯视图进行语义分割辅助飞行员安全着陆。近年来,基于卷积神经网络的方法在语义分割问题上取得了一系列突破,主流的语义分割网络通常基于编解码器结构。但在大部分语义
学位