基于深度学习的行为识别研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:Dec-87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频是随时间变化的连续画面,是重要的多媒体数据组织形式,对视频的理解与分析一直是计算机视觉的研究热点。行为识别是对短时间、有唯一确定标签的分割后的视频进行分类的研究,是视频理解领域必不可少的基础研究方向。视频作为随时间变化的序列,兼具空间与时间两个维度的信息,行为识别的研究,就是对时空建模方法的探索。早期的行为识别通过传统方法构建手工特征表达行为的时空特性。但由于视频数据复杂性高,传统方法的建模能力十分有限。随着近年来深度学习在图像识别和自然语言处理中取得的瞩目进展,通过深度学习仅提取空间或者时间信息之一的技术已逐渐趋向成熟。应用于行为识别的时空建模方法研究,既与这两方面的研究的成果有很大关联,又需要在现有成果的基础上做出对应的创新。行为识别研究的难点大体有如下方面:其一是数据输入成本。视频数据结构复杂,传输和运算的成本大;其二是算法精度要求。实际应用需要算法的高精度;其三是数据量与计算资源制约。实际应用场景往往面临训练数据有限、运算资源有限的问题。为了应对这三个方面的挑战,行为识别的研究可以大体上分为以下三个具体的方向来提高算法的识别能力。其一是特征输入层面,从繁杂的视频数据中提取出有效的特征表示方式,在输入端而非深度网络主体上进行优化来提升算法的性能,我们可以称之为预识别的研究;其二是算法模型层面,通过调整优化深度学习算法的网络结构,提出更为有效的时空建模方式来解耦视频场景内容,捕捉时间关联性特征来提升算法的性能,我们可以称之为识别方法的研究;其三是场景适配层面,结合实际运用场景,综合考虑数据特征,面向特定任务对算法模型进行二次适配增强其鲁棒性,发挥其在实际应用场景下的性能,从而我们可以称之为后识别的研究。本文分别在上述三个方面,对行为识别展开了系统全面的探索。在预识别研究中,本文就骨架和RGB视频两种主要输入模态分别进行了探索,因而共计四个研究方面。其主要研究内容和贡献如下:(1)提出了一种用于描述骨架运动的特征表示方法。骨架特征与传统的RGB输入不同,本来就具有很强的语义信息,所以相比RGB数据更容易提取出有效的特征表示。以往基于骨架的行为识别算法采用的特征虽然多样,但都是基于骨架坐标在时间维度上进行线性变换得到的。这样的特征表达相比初始空间坐标缺乏变化,容易在深度学习的过程中被覆盖。针对此问题,我们提出了面向骨架运动本征的旋转描述子。旋转描述子的特征表示完全与骨架关节点的位置无关,从而与原始的空间坐标信息有很好的正交性,且可以灵活便利地应用于各种深度学习模型构造多流网络提升现有算法的性能。旋转描述子具体有两种,旋转角度表示以及双向差分表示。旋转角度表示是一个在描述关节转动的特征时遵循三维旋转群约束,对关节运动的表示更为精确,通常可以得到更高的精度;双向差分表示则将三维旋转群约束松弛为线性变换,相比旋转角度表示具有更好的鲁棒性和较低的运算成本。(2)提出了一种拟合短时运动信息的输入特征增强方法。RGB数据复杂度高,稠密的数据采样带来极大的运算成本和输入输出成本,所以常见的深度学习算法都仅仅在视频序列中采集少量的样本进行时空建模。短时动态特征的加入对行为识别有很强的增强作用,但是短时动态特征的提取要求相当稠密的帧输入,在实际应用场景中对数据采集的质量和传输的速度都带来了很大挑战。人类可以根据行为的一些片段想象整个行为过程,我们提出一种动态特征生成器来模拟这种过程。动态生成器以稀疏采集的样本为输入,通过一个编码器-解码器结构,利用稀疏样本之间长时的运动特征估计出样本周边的短时运动特征。得到的短时运动特征可以作为特征层面的增强,灵活地强化各种现有行为识别算法。因此,短时特征估计模块是一种可以普遍适用于各种现有方法的特征增强手段,有提高识别精度、不需要额外输入、结构简单几乎不增加运算量以及可适用场景多的优点。(3)提出了一种在时空建模过程中增强前景特征的方法。时空建模问题中,因为视频中的前景是行为执行的主体,解耦视频的前景和背景是提升模型识别能力的一个关键性挑战。因为前景在整个视频帧的范围中通常占比较小,直接进行时空建模会造成背景部分的特征被过度建模反而影响行为识别的效果。而前景和背景的概念是相对的,只有在行为执行过程中才能够运用注意力机制,将动态的部分认定为前景并进行强化。所以,为了解决该问题,我们提出了一种全新的前景提取的策略。在时空建模的过程中,聚合特征的时间维度可以编码一个相对静止的背景,并用原始的特征减去这个背景进而得到前景。前景提取策略有两种具体的实现方式。在空间维度上我们设计了场景拆分模块,在通道维度上则以前景增强模块实现。综合二者,可以得到良好的时空建模性能提升。(4)提出了一种面向不规则数据和有限运算资源的时空建模方法。常见的时空建模算法都在理想情况下,基于规则数据,即类别间分布均匀、数据量充足的数据集上以充足的运算资源进行训练。这种情况下,遴选适合数据集特征的超参数就可以充分地发挥时空建模算法的性能,不需要特别将网络模块与数据特征进行适配。而实际应用场景下,待处理数据的类别分布很可能不均匀且规模有时也比较小,因而需要表现更为鲁棒的识别模型。针对这个问题,我们设计了一种可以灵活嵌入2D CNN主干(backbone)网络的二维渐进融合模块。该模块运用了一种称为变化抑制卷积的新型卷积方式,在时间和空间维度融合主干网络提取的空间特征,逐渐降低时间维度并减少网络的参数量。这样的网络结构约束了时空建模模块对特征语义的改变,可以更充分地利用预训练主干网络的分类能力。因而以这种模块构造的行为识别网络在小规模数据集上也能良好收敛,且对超参数不敏感,适合实际应用场景。
其他文献
中国西南岩溶区土壤具有重金属地质高背景特征,给粮食和生态安全带来威胁。岩溶坡立谷是居民主要的生产、生活场所,谷地中土壤环境质量状况关系到区域生态安全和人体健康。坡立谷土壤的形成与岩石风化、水土流失作用等密切相关,而岩溶环境的空间异质性造成土壤重金属元素全量及有效态复杂的空间差异。外源水是岩溶作用的主要动力之一,在地质构造和水力条件下驱动了岩溶地貌发育,影响了谷地冲积物等的空间分布。然而,外源水对坡
在调研国外光污染管理政策的基础上,分析了中国光污染管理政策现状,参照现行监测技术规范,开展LED广告屏光污染测量和标准限值比较。测量结果表明:中国城市LED广告屏屏幕亮度超标严重,除了亮度外,亮度变化幅度是影响周围光环境舒适度的重要因素,白色等明亮颜色是导致居民区照度升高的重要色调。标准限值比较发现,为更好地保护光环境,应严格限制LED广告屏亮度排放值,推荐采用亮度最大值作为评价指标。
<正>《幼儿园教育指导纲要(试行)》指出:开展丰富多彩的户外游戏和体育活动,培养幼儿参加体育活动的兴趣和习惯,增强体质,提高对环境的适应能力。进入大班后,我们结合幼儿的兴趣和已有经验,组织开展了一系列的玩绳活动,幼儿的动作技能得到了发展,也玩出了多种花样,如会单脚跳、双脚并拢跳、正方向跳、反方向跳、边奔跑边向前跳、二人合作跳等,孩子们跳绳的热情很高。在幼儿户外游戏的过程中,我一直坚持做一个观察者,
期刊
为了避免建筑工程造价纠纷,针对工程造价司法鉴定面临法律问题展开分析具有重要意义。本文首先介绍工程造价司法鉴定的特殊性质,对司法鉴定工作形成初步的了解。其次分别立足于明确司法鉴定程序启动主体、鉴定根据与举证期限的适用性、工程造价司法鉴定和审判程序联系、工程造价司法鉴定程序、建筑市场秩序与信用体系五个维度,探讨工程造价司法鉴定,并且从法律层面尝试分析一些应对、解决的办法,旨在为今后化解工程造价纠纷、提
人类对光的研究是一把达摩克利斯之剑。光对人类社会、经济、科技等领域做出贡献的同时,也正危害着人类的健康与生存。城市作为光污染的温床,因此城市光污染已经成为光污染治理的头号目标。纵观全球城市光污染的治理工作,法律手段的运用首屈一指。为切实提高我国城市光污染治理效力,将其纳入法律规制范畴至关重要。这既符合当前城市光污染治理的实践需求,也是我国环境法律体系发展的必然要求。本文从我国城市光污染防治现有法律
南阳市作为我国具有典型中部特征的城市,在历史文化、地理位置、气候特征以及产业结构等多方面城市特征中具有明显的康养旅游开发的优势。南阳市的气候特征和自然、社会环境具有不可替代、难以复制的独特性。因此,南阳市康养旅游资源的开发,势必成为南阳经济发展的重要支柱。近年来,南阳市康养旅游产业发展还存在缺少系统性的规划、开发投入严重不足、基础设施不完善诸多问题。因此,本文将结合康养旅游产业的发展特点和南阳市独
《民法典》颁布以前,违约方合同解除问题并没有直接明确的法律规范对法律实践中的相关问题进行指导,以至于实践中对此类问题判定呈现出对立的两种裁判观点。作为典型的继续性合同,房屋租赁合同履行过程中容易出现合同僵局问题,违约方多欲以解除合同的方式跳出合同的拘束。狭义合同解除权属于形成权,由权利享有方以通知的方式即可改变双方法律关系,该种权利并不能由违约方享有。但当出现严重影响房屋继续承租的情形而无法维系租
<正> 1 对象与方法1.1 对象 68例脑缺血患者,男40例,女28例,年龄38岁~79岁,平均55岁。双侧大脑基底节区梗塞8例,单侧基底节区梗塞11例,脑干梗塞3例,多发性腔隙性脑梗塞21例,椎基底动脉供血不足25例;其中伴肢体瘫痪或肌力下降11例;所有病例均患有不同程度的动脉硬化,表现为头晕。随机将68例分为2组,第1组
文章对近几年部分学者就混合所有制风险防范研究进行简单概述,借鉴其有益的观点;在此基础上,以某省某混合所有制房地产开发项目国企民企双方投资、合作运营以及发生的问题、面临的困境为例,剖析其合作过程中产生的风险及原因,提出相应的防控对策及建议以确保国有资产保值增值,保障国企民企共同发展,实现优势互补、互利双赢。
当前陆生生态和水生生态氮负荷逐渐增加,造成含水系统无机态氮素不断富集,影响了天然氮循环过程并威胁着人类健康安全。人为活动普遍被认为是无机态氮素在含水系统富集的根本因素。然而,自然来源的铵氮释放近年来被发现是引发水体氮污染的重要因素之一,二者协同作用加剧了地下水及孔隙水水质恶化。自然来源铵氮极易于第四纪河湖相堆积物富集,其赋存机制受沉积环境控制,释放机制受补排条件影响,转化机制与水体氧化还原环境密切