基于深度学习的手语识别技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:chrisliuyaqin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手语识别的研究有两个主要方面:孤立词和连续语句识别。孤立词识别的重点是用户执行的一个手势,并试图识别它。在连续识别中,用户需要一个接一个地执行手势,目标是识别用户执行的每个手势。本文对以上手语识别中的孤立词和连续语句识别进行了研究,借助于近几年非常引人注目的深度学习技术,在几个大规模公开数据集上取得了较大的进展。手语识别存在以下几个难点:1)手语的特点主要表现在手型的变化,但是由于其存在变化快,形变大,存在遮挡等问题,使得设计就有区分性的手语表征存在困难;2)手语视频序列具有很强的冗余性,例如空间背景,过渡帧,静止帧等,冗余信息存在干扰,并且使得识别问题变得复杂;3)手语识别的最终目的是实现连续语句的识别,但是这依赖于对序列的分割和孤立词的识别,手语动作过渡自然没有明显的标志,难以达到精确的分割。针对难点1)中设计具有区分性手语表征困难的问题,我们提出基于三维卷积神经网络的孤立词识别方法,借助于深度卷积神经网络强大的自主学习特征的能力,避免了人工设计手型特征,绕开了手型的检测,跟踪和分割。三维卷积神经网络以原始视频片段作为输入,通过三维卷积核捕获动作的时空特征,通过深层结构逐层学习抽象的、具有区分性的表征。因为神经网络要求输入大小固定,所以用滑动窗口把视频流分割成片段送入网络中提取特征,特征序列聚合后得到的向量作为视频的表征,基于该表征用SVM实现分类。为了提高识别率,我们采用了 RGB-D数据,利用两种模态数据之间的互补性提升性能。针对难点2)中的冗余性问题,我们提出了基于注意力机制的孤立词识别方法。空间上,由于手语动作主要表现在手臂和手掌区域,其他区域都是不相关的背景,这些冗余的信息会产生干扰,因此我们希望只保留目标区域的像素信息。时间上,不同时刻的信息重要程度不同,所以我们采用基于注意力池化的循环神经网络聚合特征序列。具体地,手语动作主要集中在手掌和手臂区域像素,根据这个先验我们对每一帧图像做视点筛选。模拟人视觉系统机制,凸显目标相关区域的像素,暗化背景及不相关区域。处理之后再通过卷积神经网络学习并提取时空特征。每个视频用一个特征序列表示,然后用循环神经网络编码,得到视频的表征。循环神经网络融合了注意力机制,对不同时刻的特征向量分配不同的权重,冗余信息将会得到很低的打分。此外,为了进一步提升识别率,除了使用RGB-D数据外还从关节坐标位置信息中提取基于形状上下文的轨迹特征。融合视频表征和轨迹特征,连接softmax层实现分类。同样是为了解决难点2)的冗余性问题,我们进一步提出了基于关键片段选择和分层注意力网络的孤立词识别方法。不同于之前的把所有帧的信息都融合进视频的表征里,该方法首先进行关键片段选择,去除了冗余信息,然后建立两层的注意力网络对筛选的序列建模,同时考虑了手语序列的结构性和多义性。关键片段筛选的目的是去除冗余,主要是静止帧和过渡帧。分层注意力网络的目标是从筛选的关键片段序列中学习得到视频的表征用于分类。网络采用两层的结构学习时间序列的权重,第一层是基于卷积神经网络的短期注意力模块,独立学习各个片段中视频帧的权重,融合得到片段的表征。第二层以片段的表征作为输入,衡量各个片段之间的重要性,融合得到视频的表征用于分类。整个模型有两个优化目标:筛选关键片段和识别。两个目标相互依赖,因此通过类期望最大化算法来交替优化,相互提升。针对难点3)中时序分割困难的问题,我们提出了基于潜在空间和循环神经网络的连续语句识别方法。为了提高识别率,我们首先重新设计了手语视频的表征,采用一个双路的三维卷积神经网络,同时学习局部的手型变化特征和全局的轨迹特征,聚合后作为视频片段的特征。为了绕开分割这个步骤,我们使用循环神经网络实现序列到序列的映射,将输入的视频序列编码成隐状态向量,然后再将其解码成目标的文本词序列。但是该过程只学习了视频和文本之间的映射关系,忽略了两种模态数据之间的相关性。因此我们在识别的过程中同时学习一个潜在空间来弥合两种数据之间的语义鸿沟。
其他文献
随着智能变电站的推广,IEC61850标准得到了广泛的应用。现今变电站计量系统仍使用传统协议IEC60870-5-102,因此需要将现有规约进行转换从而实现原有的计量设备可以与IEC61850标准的设备进行通信。102/61850网关可以实现将102规约数据进行转换,得到符合IEC61850标准的数据信息的输出,实现智能电子设备之间信息的交互。首先,介绍了当前IEC61850协议、IEC60870
近30多年来无线移动通信技术飞速发展,各种新技术层出不穷,而正交频分复用(OFDM)技术凭借其独特的优势脱颖而出,成为了当代通信系统的主流技术。OFDM系统的一个最大的缺点就
随着无线移动通信的快速发展,用户对高速率数据业务的需求越来越大。LTE网络保障了视频、游戏、多媒体社交等应用的良好用户体验,同时也带来了巨大的能耗问题,这不仅造成了高
传统的数据中心网络通过采用不同的网络技术标准对来自不同的应用层服务实施管理。存储服务的传输是通过基于TCP/IP的iSCSi SAN或FC SAN;客户机-服务器的应用服务则是通过传
随着科学技术的快速发展,现代化装备系统的设计和生产不再仅局限于装备产品,系统的测试工作也逐渐不可否缺,它是产品的性能保证;尤其在军用设备的研发中,其测试设备的研发所
物联网技术发展迅速,RFID技术越来越广为人知,RFID技术利用射频信号实现对电子标签的快速识别,这一优势在对移动物体的识别上更加明显。由于其具有识别速度快、数据存储量大
宽带雷达在距离分辨力、目标参数测量精度、雷达的“四抗”性能、目标的识别性能、强杂波背景下弱目标的检测性能、信号的波形设计等方面相较于窄带雷达有明显的优势,是现代
星载SAR在实现高分辨成像、宽测绘带成像等方面具有广阔的前景,多个星载SAR组成的星座系统在地形数据获取、动目标检测等领域也有着深厚的潜力。因此,星载SAR受到了广泛关注,
能源互联网以可再生能源为主要一次能源,以可再生分布式能源+互联网为核心,实现可再生能源接入。随着国内越来越多的大规模风力发电站并入电网,电网运行和调度由于风力的间歇性
随着FPGA技术的发展,其应用领域也在不断扩大。科研工作者将FPGA用来处理雷达信号,由于雷达信号数据量大并且要求对信号处理实时完成,传统的DSP处理器已很难满足要求。由于FP