基于深度学习的手部姿态估计方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:c1074527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,计算机视觉在人机交互领域发挥着越来越重要的作用。准确的手部姿态估计能够更好地实现人机交互,传统的方法通过数据手套等可穿戴设备实现了较为准确的人的手部姿态的估计,但是对用户约束较大,难以大规模推广并在一些项目上难以实施,且设备成本较高。随着图像采集设备的小型化和廉价化,基于计算机视觉的手部姿态估计的应用前景越来越广泛。本课题在计算机视觉的基础上基于深度学习实现手部姿态的估计。传统的基于深度学习的三维手部姿态估计的方法大多利用深度图像,与彩色图像相比,深度图像采集设备成本高、消耗大,对用户有一定的约束性。实现基于单幅彩色图像估计手部姿态能够降低使用成本并使姿态估计更加方便,但是彩色图像缺少深度信息,难以估计三维手部姿态。为了解决上述问题,本文设计了基于卷积神经网络的三维姿态估计框架,主要包括三方面:首先,本文通过改进的SegNet实现了手部区域追踪,实现了从图像中裁剪出手部区域。本课题对传统图像分割网络SegNet进行改进,通过网络裁剪加快运行速度,利用特征图金字塔优化网络连接方式,提出层级注意力机制实现不同层级的权重分配。本课题中利用热图表示手部区域位置,根据热图中的置信度分割手部区域并实现手部区域裁剪。分割出的手部区能够用于手部追踪,裁剪出的矩形手部图像能够用于之后的手部姿态估计。然后,在CPM算法的基础上,本文提出了基于变尺度高斯核的二维关节点估计网络——Pose Net,实现了基于单幅彩色图像的二维关节点估计。本文使用了类似于CPM算法的深层网络,通过多层监督避免深层网络出现梯度消失的问题以及在初步估计后不断优化,针对手部区域的自我遮挡问题,通过增大卷积核大小来增大特征图的感受野,减少自我遮挡问题对准确度的影响。针对直接回归关节点位置不够准确的问题,将该任务转化为目标检测任务,将每个关节点视为加入高斯噪声的score map,神经网络的任务即为输出每个关节点对应的score map。针对不同高斯噪声会对score map产生不同影响,本章提出变尺度高斯噪声,确定合适的高斯噪声值得到最佳结果。最后,本课题提出了CFAM模型完成三维手部姿态估计。以往基于单幅彩色图像的方法估计三维手部姿态的过程中,只利用了二维关节点信息还原三维姿态,忽略了彩色图像中存在的手部纹理特征和隐含的空间信息,导致手部姿态估计的准确率存在可提升空间。为了解决这个问题,本课题提出了CFAM,将二维关节点和彩色图像的特征在通道层面中相融合,将彩色图像和二维score map特征级联后重新规划权重,合理规划和利用各个部分特征。引入通道注意力机制提高了不同类型特征图融合的效果。
其他文献
人工智能有望成为新一轮科技革命、产业革命和军事革命的核心驱动技术,对于促进国家的经济发展、军事赋能和增长政治影响力方面都有巨大的应用潜力,因而也成为了国际竞争的新焦点。中美两国均高度重视人工智能这一领域,纷纷出台了战略政策文件助推其研发和应用,进行着激烈竞争。但另一方面,中美在人工智能领域仍存在着诸多合作。如何理解在中美战略竞争背景下,两国在人工智能领域仍存在着广泛而密切的合作关系?中美在人工智能
2001年发生在美国的9·11恐怖袭击,其影响之大、之广、之深远远超出我们的想象。对全世界而言,它是一个改变了世界格局的历史事件;对于美国而言,它是一次改变了国家政治形态的恐怖袭击;对于美国内民众而言,它是一场摧毁对未来期许的灾难。时隔多年,当时深受9·11之害的个人和家庭,今之何如?亚当·谢夫特的最新小说《那个未曾谋面的人》给了我们答案。本篇翻译实践报告的原文节选自《那个未曾谋面的人》一书。小说
现代战争对雷达目标识别提出了更高的要求,由于现役雷达大部分是低分辨雷达,对其开展目标识别技术的研究具有重要军事意义。在小样本、样本不均衡等复杂电磁环境条件下,传统低分辨雷达目标识别方法存在泛化性较差、识别率较低等问题。本文围绕深度学习方法对低分辨雷达目标识别技术开展研究,主要研究内容如下:传统低分辨雷达目标识别技术采用先提取信号特征,再基于特征进行识别的两步识别方法。论文首先研究了基于深度学习的低
"穿透式"行政检察监督打破行政诉讼固有"遮蔽",弥补行政检察监督缺位,是参与社会治理多元主体中不可替代的重要力量。"穿透式"行政检察监督多层穿透,具备坚实的理论基础。不仅如此,其通过发挥"一手托两家"的监督作用,在司法实践中具有监督行政诉讼活动、促进依法行政、实质性化解行政争议、提升社会治理能力的制度优势。实现"穿透式"行政检察监督之功效,应遵循精准监督、双重监督、实质监督、类案监督的监督理念,同
图像语义分割技术是目前计算机视觉技术领域中的热门研究方向,其研究具有重要的军事及民用价值。随着军事智能化要求的提高,语义信息发挥越来越重要的作用,这更加促进了语义分割技术研究的发展。本文以公开大规模数据集中的场景和物体作为研究对象,对图像语义分割算法展开了研究。研究重点内容包括以下三个部分:(1)介绍了语义分割技术的发展现状,对目前国际上主流的语义分割算法进行了归纳总结。在对目前国际上使用最广泛的
随着毫米波近场成像系统在安检等领域发挥作用,针对三维雷达图像的目标分类与检测方法具有了重要的理论研究和应用价值。三维雷达图像包含丰富的三维空间信息与雷达成像特征,本文尝试通过深度学习的方法,充分分析利用三维雷达图像具有的特点,深入研究针对三维雷达图像的目标分类方法。第一章论述了该课题的研究背景和意义,分三个小节详细总结了三维雷达图像目标分类的深度学习方法相关领域的发展现状,在此基础上归纳了本课题需
目标检测任务作为在图像处理和计算机视觉领域中的基础课题之一,在图像检索、视频监控、人脸检测、人机交互等方面上有着广泛的应用。传统的目标检测方法首先是对给定图片进行特征提取然后再进行分类抉择,因此特征提取的好坏对目标检测的性能起着关键的作用。相对于传统的目标检测方法,基于深度学习的目标检测方法通过大量数据训练能够自适应的学习到较好的特征提取方法,可以更好的在复杂场景下进行检测。目前比较流行的基于深度
雷达传感器具有全天时全天候工作、非接触式等优点,可用于人体非侵入式的侦察监视,正逐渐成为城市反恐、远程健康监测等领域的重要感知手段。其中低频雷达可以实现穿透墙壁探测人体信息,但其微多普勒时频信息模糊,区分难度高。而深度学习的兴起使低频雷达具有区分那些在视觉上无法分辨的微多普勒时频特征的潜能。本文以低频段多发多收(Multiple-Input Multiple-Output,MIMO)超宽带(Wav
颜色在许多计算机视觉的问题中都起到了关键性的作用,相比于灰色图像,彩色图像的使用为图像分类、目标检测等问题都提供了额外的彩色信息。图像着色是考虑给灰度图像赋予彩色信息的具有挑战性的问题,在学术和工程等各个领域都有着广泛的应用。同时随着计算机的发展,深度学习具有自动学习出模式特征的特点,能够高效地将特征学习融入到模型的建立,减少人为干预。因此,使用深度学习的方法解决图像着色的问题已成为不可避免的发展
信息过载问题已经成为互联网应用发展所面临的重大挑战问题之一。推荐系统(Recommender System,RS)是最常见的用于缓解信息过载的手段之一,并已被网站和应用程序广泛采用。目前,深度学习方法已经成为提取多模态数据特征的最有效手段,因此,为了更好的利用多模态数据来实现精准推荐,必须对基于深度学习的推荐系统进行分析研究。虽然,深度学习方法是推荐系统研究的前沿热点。然而,由于缺乏对文本和用户数