基于RGB-D数据的大规模手语识别

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：aidam

【摘要】

：

全世界的聋哑人数量高达约3.6亿。聋哑人之间的交流基本靠手语，而和健听人的交流却存在巨大障碍，主要靠成本较高的人工翻译或者比较费时的书面文字。自动手语识别的目的就是架

【作者】

：

王汉杰

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

手语识别协方差矩阵格拉斯曼流形置信传播深度信息神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

全世界的聋哑人数量高达约3.6亿。聋哑人之间的交流基本靠手语，而和健听人的交流却存在巨大障碍，主要靠成本较高的人工翻译或者比较费时的书面文字。自动手语识别的目的就是架起健听人和聋哑人之间沟通的桥梁。　　早期的工作对基于穿戴设备的手语识别进行了广泛的研究并取得了一定的成果。由于厚重的穿戴设备的用户体验不友好，越来越多的研究者开始探索基于视觉的自动手语识别。目前，基于视觉的手语识别技术还远没有达到成熟的地步，存在的问题包括可以处理的手语词汇量有限、连续手语中单词切分不精确和缺乏高效的特征描述等。此外复杂的手形变化、快速的手部移动、多种多样的手语打法和极为普遍的遮挡等都给手语识别带来极大的挑战。这些问题和挑战使得基于视觉的手语识别方法远远没有达到应用的需求。　　为了解决上述问题，本文不仅提出了大词汇量孤立词的建模和分类方法，还分别从孤立词和短语训练出发对连续手语识别进行了深入的研究。主要研究工作包括:　　(1)提出了格拉斯曼流形下的手语单词建模与分类方法。为了更好地描述手语建模过程中时间域上的长期依赖性，本文利用协方差矩阵对长时间的动态视频进行编码。协方差矩阵之间的距离通常采用黎曼流形上的度量。但是黎曼流形上常用的快速度量方法只能给出近似的映射在切空间上的距离。因此，本文提出利用格拉斯曼流形上的度量的方法，实现更快速、准确的协方差矩阵之间的距离计算。在手语孤立词的分类实验中，提出的格拉斯曼协方差矩阵(Grassmann Covariance Matrix，GCM)的建模方法的性能在特定人和非特定人情况下均优于其它对比算法。　　(2)提出了格拉斯曼流形下的连续手语识别框架。本文使用层级格拉斯曼协方差矩阵(Hierarchical GCM，HGCM)的单词建模，结合多层时域置信传播(MultipleTemporal Belief Propagation，MTBP)的句子分割和优化方法实现了连续手语识别的整体框架。HGCM使用层级的方式将一个完整的手语孤立词预先分割成多个部分，全部用于手语模型的训练。使得在连续手语识别中，即使滑动窗口只截取了完整单词的一部分，HGCM也能够正确识别。在结果优化上，受无监督图像分割的启发，本文采用置信传播的方法对当前帧进行时间域和空间域上的矫正。　　(3)提出了一种新的利用手语短语进行建模，进而用于连续手语识别的框架。上下文关系对连续手语识别菲常重要，但是利用孤立词训练的方式缺乏对单词之间上下文关系的学习。所以，本文对手语短语进行建模，直接在训练中融合上下文关系，隐式地学习手语的语法。为避免大量的手语短语数据采集和标注，提出虚拟词间跳转（ME）片段的合成方法，达到自动手语短语数据扩增的目的，以训练鲁棒的连续手语识别神经网络模型。在训练过程中，长短期记忆(Long Short-Term Memory，LSTM)神经网络模型被用来对大量数据进行学习。实验显示，用合成手语短语训练的网络对真实手语语句有较强的识别能力，并且构造得到的单词建跳转片段使性能得到进一步提升。　　为了促进手语识别的发展，构建了一个大型的带有明确测试协议的手语数据库DEVISIGN，并用基准方法和本文提出的方法进行了测试。另外，基于上述技术，实践开发了一个大词汇量手语识别系统，包括手语孤立词识别模块、连续手语识别模块和手语对话模块。综上所述，本文在手语孤立词识别和连续手语识别上展开了广泛而深入的研究。大量实验结果表明，本文提出的方法能够显著提高孤立词分类的正确率和连续手语的识别率。

其他文献

服务爬虫引擎中服务识别与抓取功能的设计与实现

Web服务的松耦合架构及其开发便捷性使得它的应用范围越来越广‘,越来越多的企业和个人热衷于开发新的Web服务并将其放在网络上,如何对这些Web服务进行识别成为Web服务研究中

学位

Web服务WSDLRESTful贝叶斯爬虫

基于HSS结构矩阵的快速算法与并行实现

基于多层半可分(HSS)结构矩阵的快速算法可有效降低具有数值低秩属性的稠密线性方程组求解的复杂度。随机取样已经被证明是一种高效率的近似分解低秩矩阵的技术。采用随机取

学位

多层半可分结构矩阵并行算法数值低秩随机取样ULV分解Schur补

知识管理中专家地图的构建技术研究

现代化社会的迅速发展,带来了越来越广泛信息传播渠道。与此同时,产生的信息量也发生了爆炸式地增长。因此,无论是普通个体,还是企业,都很难在短时间内从海量的信息中快速找

学位

知识管理知识共享专家地图SharePoint

基于缓存机制与负载均衡的电信TTS的设计与实现

计算机技术在当今的电信呼叫中心里得到了越来越广泛的应用,从传统的CTI, ACD技术到下一代网络的NGN技术,通过与计算机技术的紧密结合,电信呼叫中心在当今社会里正发挥着越来

学位

呼叫中心TTS文本语音合成缓存负载均衡媒体服务器

基于网络分析的微生物群落特征研究与实现

人体环境中的微生物群落对人体健康起着至关重要的作用。当前，国内外很多研究都试图发现微生物群落如何影响人体健康，微生物群落之间如何交流，以及群落间交流对人体健康的影响。

学位

微生物群落特征网络分析数据处理系统

非线性资料同化关键问题研究

随着数值天气预报研究的不断发展，数值模式的复杂度和分辨率在不断提高，其非线性程度也在不断提高，同时新的完全非线性数值模式，比如气溶胶模式、植被模式等，在不断发展，原线性资料

学位

非线性二维射线追踪观测算子非线性不衰退隐式等权重粒子滤波模式误差协方差

无线城市信息库的用户兴趣模型的设计与实现

作为智慧城市在中国的应用,无线城市项目的提出旨在解决市民生活信息化问题。无线城市的核心是如何将城市中大量的数据进行收集、整合和处理,并将处理之后的数据转化为信息提

学位

无线城市信息库用户兴趣模型推荐系统协同过滤

面向大数据的加速器代码自动生成技术研究

随着互联网的兴起与发展，全球数据量快速增长，逐步进入大数据时代。在大数据时代，互联网、金融等各个行业，利用计算机对海量数据进行分析统计和数据挖掘非常重要，由于数据量的快速

学位

大数据分布式框架加速器源源变换功能代码自动生成

基于特征的大规模流场可视化

流场是科学与工程数值模拟中重要的数据场，例如大气海洋模拟、飞机与汽车数值模拟和燃烧模拟等，对流场的可视化分析是理解这些数值模拟的关键步骤。而流场可视化也一直是科学可

学位

规模流场可视化技术种子点放置图像处理

基于循环神经网络的文本语义匹配研究

随着互联网以及计算技术、存储技术的发展，数据呈现爆发式的增长，人类开始进入大数据时代。如何从海量的数据中快速并准确的找到人们真正感兴趣的信息已经成为影响人类工作生活

学位

文本语义匹配循环神经网络深度学习信息检索自然语言理解

基于RGB-D数据的大规模手语识别

与本文相关的学术论文