论文部分内容阅读
手语是聋哑人社区最重要的沟通交流方式之一,为了解决听人和聋哑人之间无障碍交流的问题,自动手语识别技术应运而生。手语识别是一个典型的跨学科问题,其目标是将手语动作转换成更易理解的自然语言文本,研究内容涉及计算机视觉、自然语言处理、多媒体分析等众多领域。近年来,深度学习在手语识别领域取得了广泛成功,但手语识别中的挑战与困难仍然存在。首先,手语由手型和手部运动轨迹来表征,如何设计能够充分描述手语特性的手型及轨迹特征是亟需解决的问题。其次,由于标注成本较高,手语数据往往缺乏时序上的精确标注,难以直接应用传统端到端的深度神经网络优化策略。此外,规模受限的手语数据也为深度学习算法的开发带来挑战。针对上述问题,本文结合深度学习技术提出了一系列方法,用于解决手语识别中的难点,其主要工作及创新点如下:(1)提出了一种用于解决手语中手型和手部运动轨迹表征的多模态手语特征表达方法,并实现了孤立词手语识别。该方法主要由两个支路构成,分别用于表征手部形状和手部运动轨迹。手型特征由三维卷积神经网络提取,手部运动轨迹特征通过形状上下文得到稠密的特征矩阵,然后使用卷积神经网络提取更为鲁棒的轨迹特征描述,使用支持向量机对融合后的特征进行分类。(2)提出了一种基于三维残差网络和空洞卷积的手语识别网络模型,采用时序空洞卷积进行序列建模,有效地提升了网络的推理速度,缓解了由循环神经网络带来的时序依赖问题,并采用迭代优化的策略,逐步提升视觉特征提取器的表征能力。(3)提出了一种使用迭代训练策略进行优化的对齐网络,在同一模型框架下同时嵌入基于连接时序分类的解码器和基于长短时记忆的解码器,并根据最大似然准则进行联合优化。利用可求导的软动态时间规整算法对两种解码结果进行对齐,达到解码结果一致性的约束。同时,利用规整的对齐路径,提出一种迭代训练策略对网络进行优化,使整个系统性能达到最优。解码时,根据连接时序分类解码器得到若干候选结果,联合长短时记忆解码器的生成概率进行重排序,获得概率最大的识别语句作为最终的识别结果。(4)提出了基于增广学习的视频手语识别方法。一方面,从连续手语识别评价指标出发,对手语标注和视频随机进行删除、替换、插入操作,获得全新的标注数据,根据这些数据进行跨模态学习,挖掘生成数据和原始数据之间的关系。另一方面,从多语言的设置出发,提出一种统一的多语言手语识别框架,进行多语言跨语种联合训练,在实现多语言手语识别的同时,极大地扩增了手语数据,能够完全超过在单一语种下独立训练的性能。