基于多特征融合的视频动作识别研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户：liarcher

【摘要】

：

【作者】

：

田文浩

【机构】

：

广东工业大学

【出处】

：

广东工业大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着人们生活的多样化,应用穿戴式相机拍摄被广泛地应用在日常生活。目前,基于穿戴式相机的第一人称视频动作识别已成为计算机视觉研究的热点问题。与第三人称视角的相机相比,第一人称视角的相机可以捕捉到穿戴者的操作画面中心,更贴近人类的视觉观察,为智能机器人的发展提供了帮助。本研究通过第一人称视频探讨人类动作行为,结合手部骨架数据和RGB数据,提出动作识别的深度学习框架,并设计一个从演示视频中学习机器人操作动作指令的应用,构建面向日常生活场景下机器人自主学习的探究方案。首先,本研究提出了一种基于手部骨架的动作识别的深度学习框架。该框架利用不同模态下的图像和骨架序列数据信息,分别完成对动作特征和空间结构特征的提取和聚合。具体来说,针对骨架序列,依据图结构理论和手部的物理结构,首先构建手部的图拓扑结构,提出通过自适应图卷积网络处理手部骨架序列的无向时空图;针对RGB图像序列特征,使用Res Net152网络进行全局空间和物体特征的提取。在实现样本特征共享上,该框架采用了局部特征移位卷积网络,分别对之前处理的两种数据模态的特征进一步融合,实现样本间特征层的信息共享,为模型带来更好的泛化性。通过在第一人称手-动作视频FPHA数据集的实验表明,提出的网络框架在动作识别的准确度达到90.74%,比之前通用的模型提高了约4%,能够有效地解决在复杂场景下的动作识别,并具有较强的鲁棒性。此外,基于上述的动作识别框架,本研究还设计了一个从第一人称视角演示视频中学习机器人操作动作指令的系统方案。该方案包括两个部分的工作。第一部分是从演示视频中获取关键元组信息,包括抓取物体的手势姿态,动作和操作物体或工具,其中手势姿态信息由手势识别框架识别,动作和物体信息由动作识别框架得到,将这些元组信息生成操作动作指令。通过实验表明,操作动作指令生成性能达到84.8%,并且对于机器人应用具有泛化性。第二部分,将操作动作指令转化并部署到机器人实验平台,实现机器人实践操作应用,验证系统方案的可行性。

其他文献

基于图神经网络的序列推荐

与传统的协作过滤和基于内容的推荐不同,序列推荐通过对用户与项目之间顺序行为的建模,很好地捕捉到用户与项目之间的交互以及随时间变化的用户偏好。会话是对序列的更细粒度的划分,会话推荐可以更好地捕获用户的短期兴趣;图神经网络能对非欧式数据进行向量化表示,在推荐系统中,可以很好地捕获用户项目之间的关系,两者越来越受到业界广泛关注。在研读大量相关文献后,发现目前基于会话的序列推荐仍然存在以下问题:一是关注于

学位

面向不确定多视角数据的序数回归算法研究

序数回归（Ordinal Regression,OR）是指在具有有序类别数据的基础上建立分类模型。目前,序数回归模型得到了广泛的应用,但是现有的序数回归算法主要在单视角数据上建立分类器,面向多视角数据的序数回归算法还存在一定的空白。此外,由于采样误差、传输错误等原因,多视角数据可能存在不确定信息。如何利用有序数据中的多视角信息和处理有序数据中不确定信息,是本文亟待解决的问题。针对上述序数回归目前存

学位

基于单目的自动驾驶三维目标检测系统研究

三维目标检测是自动驾驶车辆环境感知的关键技术之一,通过提供周围场景中丰富的三维信息,为自动驾驶的下一步规划决策提供重要依据。鉴于单目相机价格便宜、容易安装等特点,基于单目的三维目标检测在商业应用中受到广泛青睐。为此,本文重点针对车辆、行人及非机动车检测,研究基于单目的轻量化三维目标检测算法,并实现了算法在移动端嵌入式设备SE5 AI平台的部署。主要研究内容如下:（1）单目三维目标检测基准算法测试。

学位

基于多种相似性融合的药物重定位研究与应用

现今的药物研发工作所消耗的人力物力、时间和资金都变得越来越多,并且每年的申报名额也在逐年减少,药物研发工作变得越来越难以开展。得益于前人的科研工作经验的总结和大数据化的数据交流的发展,人们逐渐倾向于寻找一种成本低、效率高的方法应用于药物的研发初期,为现有药物提供高置信度区间的潜在适应症,这种技术被称为药物重定位。虽然目前已有不少科研人员提出了极具研究价值的预测模型,然而,在药物相似性和疾病相似性的

学位

基于稀疏加权的多视角多标签学习算法研究

多标签学习（multi-label learning,MLL）是监督学习的一种,但与传统监督学习不同的是,在多标签数据中,一个示例往往与多个标签相关联。多标签学习中,一个对象往往可以通过多个方面来描述。例如,在网络图像检索中,一幅图像可以使用图像的视觉特征集或者图像周围文本的文本特征集来进行描述。在这些应用中,一个对象与多个视角相关联,并且每个视角都从不同的方面来描述同一对象。因此,如何利用多视角

学位

融合领域知识的中医处方推荐方法研究

中医智能处方推荐指利用人工智能技术,根据患者病历信息进行学习,对候选中药进行预测,以模拟医生开具处方的过程。近年来许多学者围绕中医处方推荐开展了相关研究,但目前领域内仍存在亟待解决的问题,如现有临床诊疗数据具有“一多一少”的特点、无法对临床表型中的“未登录词”形成表示、现有处方推荐方法性能较低、现有方法推荐结果的配伍合理性不强等。为解决上述问题,本文围绕中医处方推荐开展了以下三方面研究。第一,针对

学位

多维空间约束量化评估及其指派

资源分布情况复杂,资源指派涉及到较多的影响因素,合理划分空间以评估资源数量及利用资源,使得空间呈现出明显的多维特性,例如城市交通网络划分和物种集聚地划分等。为了在资源有限的情况下,根据服务对象的相关需求,高效利用资源,保证空间主体划分和客体资源利用的利益最大程度,本文主要研究多维空间中资源分配的指派问题,通过任务属性划分空间网络,避免资源分配和使用的效益因空间约束过度耦合而降低。合理分配相应的资源

学位

基于改进指针生成网络和强化学习的文本摘要生成

文本摘要生成是解决信息过载问题的有效方法之一,在新闻标题生成和知识科普领域有着广泛的应用。文本摘要生成是指从源文本中提取能准确代表原文内容的简短概述,主要分为抽取式摘要和生成式摘要,生成式摘要较抽取式摘要具有更高的灵活性,成为目前文本摘要生成的研究热点,但生成式摘要还存在问题,例如,未登录词、生成重复、暴露偏差等,导致生成的摘要并不理想。本文针对上述问题,基于序列到序列框架,利用指针生成网络和强化

学位

基于结构信息与对比学习的图分类算法研究

现实世界中存在各种能够用图表示的数据,图作为一种复杂的数据结构类型,能够很好地表征不同对象间的复杂关系。对图进行分类是一个十分重要且富有挑战性的问题,在生物医药等领域具有广泛的应用,如化学分子性质预测和新药物研发等。早期针对于图分类的研究,主要是通过计算图与图之间的相似度的方式来判断图是否属于同一类别,例如统计图中特定子图的数目。但是由于需要一定的先验知识来选择合适的子图结构,所以很难应用到不同领

学位

基于深度生成模型的多维时序异常检测方法

如今,多维时序数据越来越多地被收集到各类信息系统中,为完成各种数据挖掘任务提供数据基础。然而,该类数据维度更高,无效的信息干扰也更为严重,使得对于多维时序数据的研究面临极大挑战。其中,针对多维时序数据建立有效的异常检测模型,是当下数据挖掘研究及应用的重点。目前研究者们已对该类问题提出多种解决方案,但仍然存在一定局限性。首先,异常检测领域的数据标签稀少,人工标注成本过大,导致监督方法在现实世界的异常

学位

基于多特征融合的视频动作识别研究

与本文相关的学术论文