基于多领域知识卷积神经网络的动作识别

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:jkhy66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体动作识别在计算机视觉、视频监视和检索、以及娱乐行业中有着许多实际的应用。随着深度学习和卷积神经网络的出现,动作识别取得了巨大的成功。在过去一段时间里,研究者们已经提出多种基于深度学习的动作识别技术。动作识别由于其需要有效的时空表示而被认为具有很强的挑战性。而且,动作识别中更难的是需要探索最相关的特征,并且涉及到了多个领域的知识。本文提出了三种方法来解决这些问题。在本文的第一个方法中,本文通过使用残差注意网络利用多种领域知识(原始RGB、姿势和骨架),以便从输入视频帧中提取最相关的特征。然后,本文使用路径签名特征对卷积神经网络的时空信息进行编码。在第二种方法中,精心设计了注意关节以强调与人体骨骼最相关的关节。这些注意力关节是根据身体中心的空间距离、关节之间的邻近距离而设计的,以捕获空间信息。同时,连续帧之间的注意力关节流动提供了时间域上的细节。我们将这些时空细节通过注意力关节的特征向量进行编码,并整合到一个图卷积神经网络中,最后根据这些信息进行分类。在本文的第三种方法中,我们是将图稀疏化用于基于骨骼的动作识别。长期时空图同时包含空间和时间信息,但它也固有地包含了冗余信息。这些冗余信息会导致过拟合,因此,我们提出了通过边缘有效的阻隔建模进行图稀疏化,从而得到只包含了少量节点和边的稀疏图。然后,我们还设计了一个带有自注意力图池化的图卷积神经网络,以突出动作分类的局部图结构。在具有挑战性的动作识别数据集(例如J-HMDB,HMDB-51,UCF-101,Stanford-40 Action,PKU-MMD,NTU RGB+D,NTU RGB+D-120,Kinetics-Skeleton和UTD-MHAD数据集)上评估了本文所提出的模型。这些数据集中具有各种各样的视频,例如You Tube视频、多个摄像机视频和动作图像等,充满了挑战性。与各种同期算法相比较,本文提出的方法取得了最好的性能。
其他文献
为号召全市未成年人自觉远离网吧,规范网吧经营行为,严守网络道德,加大对违规网吧、“黑网吧”的打击力度,净化未成年人的成长环境,促进未成年人全面发展,4月19日上午,由团市委、市
从彩调剧《刘三姐》里的唱词,到民间歌舞剧《刘三姐》里的序幕曲,再到被误认为音乐故事片《刘三姐》中的歌曲,后又成为广西壮族的音乐文化符号……歌曲《山歌好比春江水》从诞生
音乐不能完全和经济利益划等号。我不反对音乐走向市场,但是有些音乐、有些文化不能跟经济划等号。一些传统音乐、优秀的民族文化需要政府来支持和扶持。藏族传统的、优秀的
<正> 四、印刷机 柔性版印刷机有四个主要部件:解卷供料部件、印刷部件、加热干燥部件和复卷收料部件。在现代柔性版印刷机上,一般还有张力控制、料带导向、印刷图像观察等附
中国是一个幅员辽阔的多民族国家,其民歌的种类丰富多彩,就汉族民歌而言,南北方因为地域、文化、环境和气候等等因素的不同,其民歌在音乐风格、音域、音调等方面也有很大的不同,本
<正> 研究表明,人头发的物理和化学结构能准确记录个人生活的各种信息,一根头发所包含的信息量之多,简直超乎人们的想像。仅从你的头发,科学家就能了解到你吃什么、住在什么
西善桥地处南京城西南,是古代文人离岸渡江、踏青寻幽之地。西善桥处在大吴文化区域内,民歌在这里成为劳动人民生产、劳动、生活的不可分割的组成部分。2009年《南京西善民歌集
摘要:目前,国家和地方均开始出台相关的政策法规,提出幼儿教育办学体制改革。本文就幼儿教育社会化改革进行深入思考,对今后幼儿教育社会化发展加以探索,提出了自己的想法和思考。  关键词:幼儿教育;社会化;改革    我国的幼儿教育已成为当前幼儿教育研究者、老师、家长共同关注的一个热门话题。许多专家、学者开始重新认识幼儿教育的性质及培养目标,并提出了幼儿教育社会化改革的可行性与必要性。国家、地方政府、社
桩基的设计对于公路桥梁来说极其重要,因此,我们要加强对公路桥粱桩基的设计研究,不断的提高设计的科学性和合理性,从而提高公路桥粱的施工质量。本文将从以下几个方面来分析公路