基于深度学习的视频手语识别研究

来源 :中国科学技术大学 | 被引量 : 5次 | 上传用户:xiaotiantiandetian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手语是聋哑人社区最重要的沟通交流方式之一,为了解决听人和聋哑人之间无障碍交流的问题,自动手语识别技术应运而生。手语识别是一个典型的跨学科问题,其目标是将手语动作转换成更易理解的自然语言文本,研究内容涉及计算机视觉、自然语言处理、多媒体分析等众多领域。近年来,深度学习在手语识别领域取得了广泛成功,但手语识别中的挑战与困难仍然存在。首先,手语由手型和手部运动轨迹来表征,如何设计能够充分描述手语特性的手型及轨迹特征是亟需解决的问题。其次,由于标注成本较高,手语数据往往缺乏时序上的精确标注,难以直接应用传统端到端的深度神经网络优化策略。此外,规模受限的手语数据也为深度学习算法的开发带来挑战。针对上述问题,本文结合深度学习技术提出了一系列方法,用于解决手语识别中的难点,其主要工作及创新点如下:(1)提出了一种用于解决手语中手型和手部运动轨迹表征的多模态手语特征表达方法,并实现了孤立词手语识别。该方法主要由两个支路构成,分别用于表征手部形状和手部运动轨迹。手型特征由三维卷积神经网络提取,手部运动轨迹特征通过形状上下文得到稠密的特征矩阵,然后使用卷积神经网络提取更为鲁棒的轨迹特征描述,使用支持向量机对融合后的特征进行分类。(2)提出了一种基于三维残差网络和空洞卷积的手语识别网络模型,采用时序空洞卷积进行序列建模,有效地提升了网络的推理速度,缓解了由循环神经网络带来的时序依赖问题,并采用迭代优化的策略,逐步提升视觉特征提取器的表征能力。(3)提出了一种使用迭代训练策略进行优化的对齐网络,在同一模型框架下同时嵌入基于连接时序分类的解码器和基于长短时记忆的解码器,并根据最大似然准则进行联合优化。利用可求导的软动态时间规整算法对两种解码结果进行对齐,达到解码结果一致性的约束。同时,利用规整的对齐路径,提出一种迭代训练策略对网络进行优化,使整个系统性能达到最优。解码时,根据连接时序分类解码器得到若干候选结果,联合长短时记忆解码器的生成概率进行重排序,获得概率最大的识别语句作为最终的识别结果。(4)提出了基于增广学习的视频手语识别方法。一方面,从连续手语识别评价指标出发,对手语标注和视频随机进行删除、替换、插入操作,获得全新的标注数据,根据这些数据进行跨模态学习,挖掘生成数据和原始数据之间的关系。另一方面,从多语言的设置出发,提出一种统一的多语言手语识别框架,进行多语言跨语种联合训练,在实现多语言手语识别的同时,极大地扩增了手语数据,能够完全超过在单一语种下独立训练的性能。
其他文献
本文通过工程实例阐述了水泥深层搅拌桩技术的机理、工艺流程、施工技术参数及施工质量保证措施。
<正>批判性思维是"对于某种事物、现实和主张发现问题所在,同时,根据自身的思维逻辑做出主张的思考",它的目的就是要对所学东西的真实性、准确性、价值性进行个人判断,从而对
通过轨迹聚类分析挖掘物体移动模式的空间分布和时间特征,对于认识运动的形成机制,预测运动的未来发展具有重要的意义。目前,轨迹聚类研究主要关注物体的空间位置变化,时空聚
本文对现代建筑设计中实现自然通风的方式进行了相关的探讨及分析。
<正>我们的祖先在漫长的五千年文明史中留下了许多宝贵遗产,药膳就是在饮食界传承下来的珍宝之一。靠日常饮食就能达到吃药的效果,听起来是一门高深的学问;但这其实更应被称
培训是企业人力资源建设的重要环节,也关系到企业的生存和发展。然而,目前我国企业培训中存在诸多问题。文章根据笔者多年的实际经验,提出了我国企业在培训中存在的问题,并提
随着在线电子地图应用的普及,地名信息检索已成为相关研究领域的热点,并取得了丰富的研究成果。然而,这些研究主要侧重于检索效率和文本关键词匹配质量的提高,并未顾及实际应
二烯烃橡胶,由于其优异的性能,已成为轮胎和其它橡胶制品不可或缺的组成部分,例如,顺丁橡胶(cis-PB)、丁苯橡胶、天然橡胶和顺异戊橡胶(cis-PIP)等已被广泛应用于汽车轮胎、
目的:观察四季青水煎液外用对小鼠耳廓肿胀模型及大鼠足趾肿胀模型的抗炎作用。方法:取雄性昆明种小鼠50只,随机分成5组,分别在每只小鼠右耳廓正反两面分别涂抹相应药液,敷以
随着我国经济水平的不断提高和科学技术的迅速发展,城市建设的施工技术越来越成熟。文章通过对桥梁工程的调查研究,结合桥梁工程相关理论及施工问题分析,联系桥梁施工中的后