基于骨架的人体动作识别方法研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:tyzhaoxiqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机视觉领域的快速发展,许多研究人员的关注焦点聚集于人体动作识别方向。该研究方向多运用视频分析的方法对人体动作进行识别,然而人体动作间灵活性高、差异性小,运用视频分析对人体动作类别进行准确识别仍面临诸多困难。随着视频获取设备的日益成熟,运动中的人体骨架信息越来越易于获取,且人体骨架信息对于光照、场地、遮挡等问题均具有一定的鲁棒性,因此基于视频的人体动作识别逐渐转为基于骨架的人体动作识别。人体骨架三维空间坐标数据记录了人在生活、工作、娱乐等各种情形下的活动,对其进行动作识别研究将极大地推动人类科技文明的发展,方便人们的社会生活,并被应用于智能看护、安防监控、体育健身和社交平台内容审核等多个方面。基于骨架的人体动作识别主要研究如何对人体骨架信息进行建模,从中提取有效的时间信息和空间信息,进而达到对人体动作进行识别目的。本文以基于人体骨架信息的人体动作识别为研究内容,完成了以下研究工作:(1)提出了基于Skele Motion-ResNeXt(SM-RNXt)网络的人体动作识别算法。首先对每个动作的人体骨架进行动作结构建模,根据动作结构对动作大小和方向特征进行计算,最后将两者进行融合得到具有时空信息的Skele Motion骨骼图像。然后将其输入到ResNeXt-50网络提取时空特征,达到对基于人体骨架动作进行识别和分类的目的。(2)在SM-RNXt网络的基础之上合并图卷积提出了基于双流网络ResNeXt-GCN(RNXt-GCN)的人体动作识别算法。人体的骨架由25个主要的关节点及它们之间的边构成,特别适合用时空图卷积(spatio-temporal graph convolution network,ST-GCN)进行分类和识别。但ST-GCN网络所构建时空图的只能学习到同一关节不同帧之间单一的时间信息,不能有效地学习相似动作间的时间信息。而Skele Motion骨骼图像通过对人体骨架信息的多尺度的建模,能有效地学习相似动作间的时间信息,从而弥补ST-GCN的这一缺点。该网络将二者所提取的时空特征进行融合,得到最终人体动作识别与分类结果。将该网络分别在UTD-MHAD数据集、Northwestern-UCLA数据集和NTU RGB+D数据集上进行实验。在UTD-MHAD数据集和Northwestern-UCLA数据集上,RNXt-GCN网络得到了比基线网络更好的结果;在NTU RGB+D数据集上,RNXt-GCN网络实验结果均得到了有竞争力的结果。(3)提出基于Skele Motion Reference Joints Image-ResNeXt(SMRJI-RNXt)网络的人体动作识别算法。Tree Structure Reference Joints Image(TSRJI)骨骼图像通过运用参考关节、深度优先树遍历两种技术对人体骨架信息进行建模,有效地提取人体骨架中的空间信息,将其输入至ResNeXt-50网络进行特征提取,提取所得的时空特征和Skele Motion骨骼图像提取的时空特征进行融合,在NTU RGB+D 60数据集和NTU RGB+D 120数据集上进行了进一步的实验,动作识别精度均高于SM-RNXt网络,证明了TSRJI骨骼图像所提取的动作特征对Skele Motion骨骼图像提取的骨骼特征有一定的补充。为进一步证明该网络的有效性,本文将其与ST-GCN网络进行融合,其动作识别精度在NTU RGB+D 60和NTU RGB+D 120两个数据集上得到了进一步的提高,其均高于RNXt-GCN网络,由此证明SMRJI-RNXt网络能为动作识别提供更有效的时空特征。
其他文献
语言作为人际交流的必要途径,除了具有传递信息的功能之外,还有表达情绪的动能。同样的话语在不同的情感背景下往往表达不同的意义,全球语言皆是如此。因此语音情感识别具有重要的研究价值。在人工智能情感计算领域,语音信号是最基本、最重要的模态之一。国内外众多学者针对语音情感的研究大多分为语音信号直接处理识别以及转换为谱图进行处理识别。而且语音情感识别任务,可以引申出的多个应用领域,比如:智能助老机器人,办公
深度学习近年来被广泛应用在字符识别、图像识别、语音识别及其他领域中,而且都取得了显著的成效。而卷积神经网络作为深度学习里重要的一个算法,因其良好的特征表现能力而备受关注。字符识别因实际需求,也变得越来越热门,更多的人开始进行字符识别方法的研究,如车牌字符识别、芯片字符识别、身份证号字符识别、自然场景文本识别等。货运列车作为我国运输业中经常使用的运输方式,其自动化管理必将越来越受到重视。而货运列车字
随着智能移动终端的普及,移动终端学习的互动学习体验更加便利,智能移动终端与教育教学的有机结合逐渐成为新时代的主流学习方式。移动终端学习环境打破了传统课堂的界限,学习者可以不受时间地点的限制合理使用移动终端进行学习,解决了课前课后一体化问题。由于2020年新冠肺炎疫情的严重影响,导致大量学习者不能进行正常线下课程,所以通过移动终端进行线上学习变得越来越重要。通过移动终端进行学习广泛应用于学习者的日常
近年来,随着计算能力的快速提升,数值模拟在科学研究与工程设计中发挥着越来越重要的作用,但是由于在数值模拟中不可避免的有近似、简化和人为因素,因此数值模拟结果的可信度成为人们越来越关心的问题。不确定性度量化(Uncertainty Quantification,UQ)是近年来计算数学新兴的研究方向,其作用是定量表征模拟结果反映复杂过程的程度。由于很多问题数值模拟计算量大耗时长,难以开展大样本的计算,
医生在诊断过程中往往需要医学图像的辅助,准确的医学分割图像对医生诊断病情、制定一些疾病的治疗方案具有重要意义。核磁共振成像是目前应用最为广泛的脑部成像手段之一,但其特殊的传输方式会导致图像受到混合噪声的干扰,且由于图像自身对比度低,内部组织形状不定,分离病灶部位与正常组织变得更加困难。为了设计一种满足临床医学实际需求的MRI脑部图像自动分割算法,本文利用哈佛大学医学院图像库中的MRI图像,从去噪和
阵列电化学生物传感器(Electrochemical Biosensor Array,EBA)凭借其选择性高、灵敏度高、分析速度快等优点受到广泛关注。微阵列电极作为换能元件,其对电化学传感器的性能起着关键作用,所以构建高性能电极材料成为当前研究热点。本文提出了一种将数字微镜器件(DMD)无掩膜多步光刻与电化学沉积相结合的技术,利用光刻系统压电平台(PZS)运动的高分辨率运动和DMD生成图案的灵活性
近年来,随着人工智能技术的不断突破与互联网技术的飞速发展,使越来越多的用户利用互联网技术进行在线学习,同时新冠疫情的爆发也促使在线教育平台拥有了更多的用户。在线教育平台使高质量的教育资源得以普及,尽管越来越多的教育家提倡个性化教育,但当前的教育模式仍由班级教学为主导。用户可以利用学习资源在老师和同学帮助下获取知识,群组推荐正适用于此类需求。尽管在线学习平台为学生带来了学习方式上的便利,但如何有效的
透明可拉伸多功能传感阵列在弯曲、拉伸等动态应变下可以感知多种刺激,发挥应变、压力和接近等传感功能,在透明智能电子皮肤、人机交互、智能机器人和假肢等领域展现出重要的应用前景。目前,由于材料性质和器件结构的限制,想实现透明可拉伸的多功能传感器面临如下挑战:1.需要传感器所有组件的材料(电极,敏感材料,封装材料等)都是透明且可拉伸的;2.需要区分不同功能的信号,以实现应变下传感的精确探测。针对以上问题,
三维人体姿态估计是计算机视觉领域的热门研究问题之一,其在人机交互、动画制作、视频监控等方面有着非常广阔的应用前景。本文主要研究面向自然场景的三维人体姿态估计问题,即对单视角自然场景图像计算其中目标人体各关节的三维坐标,从而恢复人体的三维姿态。目前对该问题的研究存在两大难点:第一,从单视角二维图像恢复三维人体姿态存在不准确性。单视角图像损失了大量的深度信息,使得从二维到三维的变换存在高度非线性;第二
近年来,随着移动网络和智能设备的发展,物联网得到了迅猛发展,日益增多的基于物联网的智能应用不断出现,高度互联的智能设备以及其产生的大量的交易数据引发了安全和隐私的关注。区块链作为新型分布式计算框架,具有去中心化,不可篡改,可追溯等特性,正在被广泛地应用于金融、电子取证、商品溯源等各种领域,在物联网领域区块链的应用刚刚开始。但是目前已有的包括比特币、以太坊、超级账本等在内的区块链平台计算开销大,这种