基于人与物体交互动作的物体属性推测方法

来源 :深圳大学 | 被引量 : 0次 | 上传用户:pickbaobei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人总是在和他所在场景里的物体进行交互,而人与物体的交互动作往往与人和物体两者都有很强的关联。在看不到物体的情况下,我们能否通过观察人和物体交互动作的骨骼动作序列,从而得知物体的属性呢?举例来说,当看不到箱子时,我们是否可以通过观察人搬箱子时的骨骼动作序列,就能得知箱子的重量呢?本文就这个问题做出了详细的研究论述。我们采集了一个大型的人与物体交互动作的数据集,其中包含视频数据和用动作捕捉服采集到的三维人体骨骼动作序列数据。我们的数据集包含8种人与物体的交互动作,分别用来推断8种不同的物体属性:重量、脆弱程度、宽度、长度、液体类型、稳定程度、强度和水容量。我们通过分析同一类动作来学习它们之间的细微差别,用以揭示正在与人交互的物体中的潜在属性。针对“从人和物体的交互动作中推测物体属性”这一细粒度分类任务,我们提出了两种人体行为识别方法(基于VGG的方法和基于图卷积的方法)。在基于VGG的方法中,我们将人体骨骼运动序列编码成若干灰度图片,用预训练好的VGGNet提取特征。实验结果表明,将人体骨骼的运动信息(如速度等)显式编码,能够大幅度地提高物体属性推断地准确率。基于图卷积的方法更加合理的利用到了人体骨骼关节之间的连接关系,而且图卷积层后连接的GRU层能够有效地从时间维度提取特征。我们通过实验评估了不同的人体骨骼数据表示形式及网络结构上的微调对物体属性推断准确率的影响。随后,我们把用于三维人体骨骼的方法推广到了二维骨骼。实验结果显示,利用三维骨骼对二维骨骼进行数据增广后,能提升从二维骨骼序列来推测物体属性的准确率。我们的实验结果表明,人与物体的交互动作和物体本身,这两者之间是高度关联的。物体潜在属性可以从人体三维骨骼的运动序列中单独推测出来。我们的神经网络推断物体属性的准确率甚至高于用肉眼观察人体骨骼交互动作来推断物体属性的准确率。我们在该方向的研究目前只是进行了一小步,该技术的潜在应用包括人的异常行为检测等。
其他文献
在竞争日益激烈的经济环境中,企业所面临的不仅仅是调整产业结构,如何提高员工创造力、加快企业自主创新,更是企业打造核心竞争力,摆脱发展瓶颈的制胜法则。因而激发员工创造力对企业发展至关重要,学术界对于研究员工创造力的关注热情也空前高涨。基于以上背景,本文以员工创造力作为研究对象,具体探讨了未来工作自我对员工创造力的影响机制。研究未来工作自我是一个未来导向概念,反映的是个体关于工作希望和抱负的未来形象的
在电动汽车普及化的大背景下,研发高能量密度的动力电池具有十分重要的意义。锂离子电池由于具有自放电效应小,比能量高、工作电压稳定、循环寿命长、安全性能好等优点,被广泛用于数码产品、新能源汽车、医疗仪器、储能转换和国防工业等领域。锂离子电池正极材料是锂离子电池的重要组成部分,也是提高电池各项性能的关键因素。Li Ni0.5Co0.2Mn0.3O2单位比容量较高,而且材料的碰撞和刺穿实验都非常理想,所以
现实生活中,很多四边形目标如屏幕、幻灯片、文档、白板等通常都是包含信息量丰富的信息载体。这些目标作为一种人造图形目标在生活、办公中被广泛应用。近年来,由于手机等移动设备得到了普及,用户通常使用手机对四边形目标进行拍照以保存目标中的内容,移动设备拍摄得到的图片能够便利的分享信息、整理保存。四边形目标检测的具体任务是将手机图片中四边形目标的四个角点检测出来,利用获取的四个角点的坐标,可将四边形目标截取
随着大数据时代的到来,机器学习、人工智能等技术使系统的计算能力更加高速、智能化,而神经网络是实现这些技术的关键手段之一。光学神经网络是以光作为计算方式的一种神经网络,和电神经网络相比具有更高速的传输能力以及超并行的处理能力。目前,国内外研究的光学神经网络体积较大,速度受限,并且没有反馈,且输出受输入影响较大。本课题研究了两种高速全光计算的脉冲神经元以及由它们构成的多层光学脉冲神经网络。该多层全光脉
近年来,移动机器人在智能制造与物流系统中得到了快速发展,其中机器人在未知环境下的同时定位与建图(SLAM,Simultaneous Localization and Mapping)的技术被大量应用和关注。基于单机器人的SLAM技术已经发展的比较成熟,并且当前主要的研究都集中在对单机器人SLAM算法的性能优化上面,对于多机器人的SLAM研究相对较少,本文针对多机器人SLAM中的机器人相对位姿确定和
随着网络应用数量的剧增,网络资源的精确匹配变得越来越重要,而推荐系统中的资源匹配问题就是如何从用户的历史偏好记录中发现特定规律,进而为网络用户提供个性化服务。作为推荐系统中更常见的一类数据,隐式反馈数据比以评分形式存在的显式反馈数据更容易收集,因此很多面向显式反馈的传统协同过滤方法被扩展来对隐式反馈数据建模。由于这类数据只包含诸如交互与否这种单一类别的信息,由此产生的一系列方法也被称为单类协同过滤
软体机器人易于制备、成本低、控制简单、柔顺性好,是机器人技术的前沿热点。软体手是软体机器人的重要方向,天然的被动柔顺特性使得采用简单的驱动算法即可实现稳定的抓取操作。结合可变刚结构,软体手具备刚度可控的特性,并且,柔顺性好、抓取力大,用于操作任务时,优势明显。因此,本文围绕可变刚度软体手的混合驱动结构设计、控制系统设计、抓取定位算法和智能视觉抓取等方面展开研究。具体内容如下:(1)结合层阻塞变刚度
MIMO雷达因其波形分集和空间分集特性,在目标检测和参数估计等方面具有分辨率高和抗干扰能力强等优势。针对大带宽信号,MIMO雷达采用奈奎斯特采样得到的海量数据对信号存储传输和处理造成了巨大压力。利用压缩感知理论可以解决MIMO雷达海量数据与稀疏目标信息之间的不平衡。现有的基于压缩感知的MIMO雷达信号处理方法大多存在着压缩采样的压缩率不高、信号重构导致的目标检测和参数估计精度低和实时性差等问题。因
近年来,伴随着对人机交互的探索,手势识别技术逐渐成为一个非常具有前景的研究热点。由于雷达传感器具有非接触、不受光照影响、不泄露个人隐私信息、可全天时、全天候工作等特点,基于雷达的手势识别技术是一个具有潜力的研究方向。然而,现有研究对手势信息的感知,主要是径向距离、径向多普勒和时频等手势特征信息,手势信息维度不足导致手势识别能力受到一定限制;特别是单雷达传感器通常无横向分辨能力,能够识别的手势种类很
随着如今海量的直播视频数据产生,从长视频提取出精彩短片段的需求也愈发迫切。但目前,提取精彩片段的多数解决方案仍是通过人工筛选,面对大量的视频,这种方法无疑会耗费大量的人力资源,如何实现高效的高光片段提取依旧是一个困扰业界的难题。且由于缺乏相关的数据集,相关领域的学术研究也同样较少。在本文中,我们将尝试利用直播弹幕来完成高光片段的识别与提取。弹幕是一类新型的视频交互形式,用户在观看直播视频的过程中,