论文部分内容阅读
手语识别的研究有两个主要方面:孤立词和连续语句识别。孤立词识别的重点是用户执行的一个手势,并试图识别它。在连续识别中,用户需要一个接一个地执行手势,目标是识别用户执行的每个手势。本文对以上手语识别中的孤立词和连续语句识别进行了研究,借助于近几年非常引人注目的深度学习技术,在几个大规模公开数据集上取得了较大的进展。手语识别存在以下几个难点:1)手语的特点主要表现在手型的变化,但是由于其存在变化快,形变大,存在遮挡等问题,使得设计就有区分性的手语表征存在困难;2)手语视频序列具有很强的冗余性,例如空间背景,过渡帧,静止帧等,冗余信息存在干扰,并且使得识别问题变得复杂;3)手语识别的最终目的是实现连续语句的识别,但是这依赖于对序列的分割和孤立词的识别,手语动作过渡自然没有明显的标志,难以达到精确的分割。针对难点1)中设计具有区分性手语表征困难的问题,我们提出基于三维卷积神经网络的孤立词识别方法,借助于深度卷积神经网络强大的自主学习特征的能力,避免了人工设计手型特征,绕开了手型的检测,跟踪和分割。三维卷积神经网络以原始视频片段作为输入,通过三维卷积核捕获动作的时空特征,通过深层结构逐层学习抽象的、具有区分性的表征。因为神经网络要求输入大小固定,所以用滑动窗口把视频流分割成片段送入网络中提取特征,特征序列聚合后得到的向量作为视频的表征,基于该表征用SVM实现分类。为了提高识别率,我们采用了 RGB-D数据,利用两种模态数据之间的互补性提升性能。针对难点2)中的冗余性问题,我们提出了基于注意力机制的孤立词识别方法。空间上,由于手语动作主要表现在手臂和手掌区域,其他区域都是不相关的背景,这些冗余的信息会产生干扰,因此我们希望只保留目标区域的像素信息。时间上,不同时刻的信息重要程度不同,所以我们采用基于注意力池化的循环神经网络聚合特征序列。具体地,手语动作主要集中在手掌和手臂区域像素,根据这个先验我们对每一帧图像做视点筛选。模拟人视觉系统机制,凸显目标相关区域的像素,暗化背景及不相关区域。处理之后再通过卷积神经网络学习并提取时空特征。每个视频用一个特征序列表示,然后用循环神经网络编码,得到视频的表征。循环神经网络融合了注意力机制,对不同时刻的特征向量分配不同的权重,冗余信息将会得到很低的打分。此外,为了进一步提升识别率,除了使用RGB-D数据外还从关节坐标位置信息中提取基于形状上下文的轨迹特征。融合视频表征和轨迹特征,连接softmax层实现分类。同样是为了解决难点2)的冗余性问题,我们进一步提出了基于关键片段选择和分层注意力网络的孤立词识别方法。不同于之前的把所有帧的信息都融合进视频的表征里,该方法首先进行关键片段选择,去除了冗余信息,然后建立两层的注意力网络对筛选的序列建模,同时考虑了手语序列的结构性和多义性。关键片段筛选的目的是去除冗余,主要是静止帧和过渡帧。分层注意力网络的目标是从筛选的关键片段序列中学习得到视频的表征用于分类。网络采用两层的结构学习时间序列的权重,第一层是基于卷积神经网络的短期注意力模块,独立学习各个片段中视频帧的权重,融合得到片段的表征。第二层以片段的表征作为输入,衡量各个片段之间的重要性,融合得到视频的表征用于分类。整个模型有两个优化目标:筛选关键片段和识别。两个目标相互依赖,因此通过类期望最大化算法来交替优化,相互提升。针对难点3)中时序分割困难的问题,我们提出了基于潜在空间和循环神经网络的连续语句识别方法。为了提高识别率,我们首先重新设计了手语视频的表征,采用一个双路的三维卷积神经网络,同时学习局部的手型变化特征和全局的轨迹特征,聚合后作为视频片段的特征。为了绕开分割这个步骤,我们使用循环神经网络实现序列到序列的映射,将输入的视频序列编码成隐状态向量,然后再将其解码成目标的文本词序列。但是该过程只学习了视频和文本之间的映射关系,忽略了两种模态数据之间的相关性。因此我们在识别的过程中同时学习一个潜在空间来弥合两种数据之间的语义鸿沟。