论文部分内容阅读
近年来,随着计算机通信和多媒体压缩技术的飞速发展以及存储成本的不断下降,尤其是智能手机的流行和各种社交网站的出现,视频、图片等视觉数据的规模呈现爆炸性增长,如何有效的管理和获取这些数据成为一个亟待解决的问题。为了利用文本管理和检索技术实现对这些数据的直接访问,视频和图片的语义标注技术逐渐发展起来,而由于人工标注效率低,成本高,主观性强,目前常用的解决方案是利用计算机对视觉数据进行自动标注。基于语义概念的自动标注是目前常用的标注技术之一,虽然取得了一定的成功,但仍旧存在一些问题影响了自动标注技术的进一步发展,其中包括对训练数据的依赖和视觉语义的局限性等。本文试图从一个新的角度来对待和处理视觉数据的自动标注问题。从本质上讲,视频和图片等视觉数据是视觉传感器对现实世界的实体和事件的描述载体,数据标注试图在视觉描述的基础上实现对原始语义的解析并以语言描述的形式进行还原,以方便组织和管理。视觉传感器是将其功能范围内目标的视觉表现进行记录,而大量与目标语义相关的上下文信息被忽略掉。目前该领域的研究重点仍是如何充分挖掘视觉数据包含的语义信息,与此不同,本文将注意力放在视觉数据的产生过程。随着物联网技术的发展,各种可穿戴感知设备逐渐普及,本文旨在利用可穿戴感器实现对视觉目标相关的上下文信息进行收集和利用,以帮助视觉数据的语义解析,主要研究成果如下:·常规视频中人脸检测和跟踪技术需要处理视频中的每一帧图像,本文提出了一种快速人脸检测和跟踪算法,通过利用传感器收集的上下文信息过滤大量无脸视频帧,从而降低处理时间,减少人脸误报和漏报,提高了人脸检测和跟踪的性能和效率。·在利用传感器进行快速人脸识别的基础上,通过深入挖掘不同感知模式中目标身体运动方向的一致性,提出了一种视频中正面脸部图像识别的方法。与前述的身份识别类似,可穿戴传感器引入使识别过程摆脱了对样本数据的依赖,实验证明,该方法具有更好的鲁棒性。·传统的视频中目标身份识别方法为了保证准确性,需要针对每个目标收集大量高质量的样本数据。本文提出了一种基于运动匹配的身份识别方法,该方法利用同一目标在不同感知模型中运动特征的内在一致性,通过引入可穿戴传感器来协助解决视频中的目标身份识别问题,该方法避开了传统的处理流程,摆脱了对样本数据的依赖,具有逻辑简单,计算复杂度低,可靠性高的特点。·提出了一种视频自动标注方法,该方法分别利用两种不同种类的感知数据进行动作识别,并且通过融合不同感知模式下的判定结果,揭示了目标的身份,最终达到以时间、地点、人物、动作的形式对视频内容进行标注的目的。