论文部分内容阅读
全世界的聋哑人数量高达约3.6亿。聋哑人之间的交流基本靠手语,而和健听人的交流却存在巨大障碍,主要靠成本较高的人工翻译或者比较费时的书面文字。自动手语识别的目的就是架起健听人和聋哑人之间沟通的桥梁。 早期的工作对基于穿戴设备的手语识别进行了广泛的研究并取得了一定的成果。由于厚重的穿戴设备的用户体验不友好,越来越多的研究者开始探索基于视觉的自动手语识别。目前,基于视觉的手语识别技术还远没有达到成熟的地步,存在的问题包括可以处理的手语词汇量有限、连续手语中单词切分不精确和缺乏高效的特征描述等。此外复杂的手形变化、快速的手部移动、多种多样的手语打法和极为普遍的遮挡等都给手语识别带来极大的挑战。这些问题和挑战使得基于视觉的手语识别方法远远没有达到应用的需求。 为了解决上述问题,本文不仅提出了大词汇量孤立词的建模和分类方法,还分别从孤立词和短语训练出发对连续手语识别进行了深入的研究。主要研究工作包括: (1)提出了格拉斯曼流形下的手语单词建模与分类方法。为了更好地描述手语建模过程中时间域上的长期依赖性,本文利用协方差矩阵对长时间的动态视频进行编码。协方差矩阵之间的距离通常采用黎曼流形上的度量。但是黎曼流形上常用的快速度量方法只能给出近似的映射在切空间上的距离。因此,本文提出利用格拉斯曼流形上的度量的方法,实现更快速、准确的协方差矩阵之间的距离计算。在手语孤立词的分类实验中,提出的格拉斯曼协方差矩阵(Grassmann Covariance Matrix,GCM)的建模方法的性能在特定人和非特定人情况下均优于其它对比算法。 (2)提出了格拉斯曼流形下的连续手语识别框架。本文使用层级格拉斯曼协方差矩阵(Hierarchical GCM,HGCM)的单词建模,结合多层时域置信传播(MultipleTemporal Belief Propagation,MTBP)的句子分割和优化方法实现了连续手语识别的整体框架。HGCM使用层级的方式将一个完整的手语孤立词预先分割成多个部分,全部用于手语模型的训练。使得在连续手语识别中,即使滑动窗口只截取了完整单词的一部分,HGCM也能够正确识别。在结果优化上,受无监督图像分割的启发,本文采用置信传播的方法对当前帧进行时间域和空间域上的矫正。 (3)提出了一种新的利用手语短语进行建模,进而用于连续手语识别的框架。上下文关系对连续手语识别菲常重要,但是利用孤立词训练的方式缺乏对单词之间上下文关系的学习。所以,本文对手语短语进行建模,直接在训练中融合上下文关系,隐式地学习手语的语法。为避免大量的手语短语数据采集和标注,提出虚拟词间跳转(ME)片段的合成方法,达到自动手语短语数据扩增的目的,以训练鲁棒的连续手语识别神经网络模型。在训练过程中,长短期记忆(Long Short-Term Memory,LSTM)神经网络模型被用来对大量数据进行学习。实验显示,用合成手语短语训练的网络对真实手语语句有较强的识别能力,并且构造得到的单词建跳转片段使性能得到进一步提升。 为了促进手语识别的发展,构建了一个大型的带有明确测试协议的手语数据库DEVISIGN,并用基准方法和本文提出的方法进行了测试。另外,基于上述技术,实践开发了一个大词汇量手语识别系统,包括手语孤立词识别模块、连续手语识别模块和手语对话模块。综上所述,本文在手语孤立词识别和连续手语识别上展开了广泛而深入的研究。大量实验结果表明,本文提出的方法能够显著提高孤立词分类的正确率和连续手语的识别率。