RGB和2D骨架序列中基于深度特征编码网络的行为识别方法

来源 :华侨大学 | 被引量 : 0次 | 上传用户:sxq5588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行为识别是计算机视觉的重要研究领域之一,因其具有实际应用前景,吸引了许多国内外学者的广泛关注,并且涌现了许多有价值的研究成果。但是,行为识别研究依旧面临和其他计算机视觉领域相同的问题,例如:视角变化,表观变化,动作执行速率变化等问题。另外,随着不同类型的数据传感器的出现,针对不同的数据类型,如RGB视频,深度视频以及骨架数据,人体行为识别的研究也涌现了不同的方法。为了更好地适用于实际场景,本文从RGB视频和2D骨架数据入手,针对这类数据中行为识别存在的这些问题,进行了深入的研究,主要的研究内容具体包括:(1)首先,本文基于RGB和2D骨架序列设计了基于骨架关节点采样的局部轨迹时空体特征,从视频中提取更加简洁有效的局部时空特征。其次,在算法中提出了基于深度学习的视频局部特征表示和编码方法,并且将深度学习特征与手工特征融合,提高了基于骨架关节点采样特征的识别效果。此外,在文本的工作中,对比了分关节点编码和合并所有节点特征的编码方式,在分关节点编码的基础上,尝试了不同关节点组合的策略,进一步提高了识别准确率。(2)本文提出了端对端的视觉单词模型以及该模型的训练策略。端对端模型在许多计算机视觉任务中表示出了较好的性能,在前面工作的基础上,本文将深度学习方法和视觉编码模型进行融合,提出了端对端的视觉单词模型,进一步提升行为识别的准确率。该模型将特征提取,特征编码,行为分类三个不同的模块融入同一个网络模型,采用交叉训练的方式,交叉更新网络参数以及特征码本。总之,本文从RGB和2D骨架序列数据入手,针对行为识别方法中的局部特征采样,深度特征编码以及端对端视觉单词模型这三个方面进行研究,层层递进,提出了对应的解决方法,最后通过实验验证了本文所提出方法的有效性。
其他文献
与传统的机械硬盘相比,固态硬盘(Solid State drive,SSD)具有功耗低,读写快,防震,无噪音,轻便等优良特性,这使得它开始在多个领域取代传统机械硬盘。然而,由于闪存介质固有的
目前工业生产流程正变得越来越复杂,独立工作的机器人的相关性能特点已逐渐不能满足实际生产的要求,因此对多机器人技术的研究日益重要,符合当前社会发展的需求。多机器人技
合成孔径雷达(Synthesis Aperture Radar,SAR)是一种高分辨雷达,可以实现全天时、全天候连续的对地观测。引入极化信息,不仅能够提供雷达多通道的数据支撑,还有利于获取雷达
符号网络是指边具有正或负符号属性的网络,其中正负边分别代表积极和消极关系。消极关系普遍存在于信息、生物和社会领域,为人们研究态度预测、用户特征分析以及聚类等方向提
过渡金属配合物,由于其在有机发光二极管(OLEDs)、染料敏化太阳能电池(DSSC)、荧光探针等方面的应用而受到了广泛的关注。自从Wrighton探究了[fac-Re(CO)3LCl](L=1,10-邻二氮菲)的发
中文分词是语义理解的关键环节,也是中文信息处理的瓶颈问题。由于中文具有特有的书写方式和其自身的复杂性,中文分词也是分词技术中的研究难点。目前,中文分词主要采用四种
多传感器系统的状态估计融合理论目前已经被广泛应用于军事及民用领域。估计信息的融合能够充分利用来自于不同传感器的观测信息,从而获得系统状态的最佳描述,同时能够提高系
在脉冲功率技术中,如何产生具有准确波形的高压脉冲至关重要。一种基本的方法是利用Marx发生器和脉冲形成线来产生脉冲,但能量转移环节较多且脉冲形成线体积相对较大,限制了
运动目标跟踪是当前计算机视觉领域中重要的研究课题之一。通过对摄像头采集的数字视频图像进行逐帧地处理,实现对视频中某个或某些感兴趣区域的定位与跟踪。近年来,在大量研
人类生活与水体环境息息相关,目前水域中金属离子污染情况严峻,对人类健康造成影响。Cu2+作为生物体内重要的微量元素,在人体细胞内浓度需维持在较低水平。由此可见,对环境和