论文部分内容阅读
手语,作为聋哑人群体的常用语言,在聋哑人与普通人间搭建了一座自由沟通的桥梁。然而,鉴于手语对普通人来说依旧晦涩难懂,两个群体间的交流障碍仍然时常发生。如果能够通过手语识别技术,将手语转换为文字或者语音进行表达,将极大地便利聋哑人与普通人间的交流。同时,作为人机交互领域的一个不可或缺的分支,手语识别研究也在当今这个智能时代显得愈发重要。数据获取与处理、特征的设计以及识别模型的选择是一个高效的手语识别算法所必须考虑的三个因素。微软的Kinect设备能够方便经济地捕获精确的颜色图像、空间深度映射数据以及关节点坐标,相较于传统的数据手套或者二维摄像头更具优势。因此,本文将以Kinect作为手语数据获取设备,对手语识别中的手语特征设计与识别模型构建进行研究,主要研究内容包括:1.依据手语词汇的手形特点,设计了一种新型的手语特征手形(Specific Hand Shape,SHS)特征。本文通过分析中国手语词汇的手形特点,提出了设计手语特征手形库所需遵守的的6条准则与一种快速构建中国手语特征手形数据库的方法。依靠特征手形数据库,结合卷积神经网络,设计了一种新型的SHS特征。该特征针对手语特征手形的分类正确率达99.59%,而传统的方向梯度直方图特征则只有94.35%,实验结果显示SHS特征对手语手形的表征效果更好。2.依据长短时记忆(Long Short-Term Memory, LSTM)循环神经网络算法,提出一种基于LSTM编码器-解码器结构的孤立词手语识别算法,在80个手语词汇数据集上进行实验,识别准确率达98.67%,优于传统隐马尔科夫模型方法。3.在单向LSTM的基础上,结合手语构词特点,使用双向长短时记忆(Bidirectional Long Short-Term Memory, BLSTM)循环神经网络算法提取手语的上下文信息,研究了一种基于BLSTM编码器-解码器结构的连续词手语识别算法,在由20个手语词组成的句子库上取得了 94.63%的识别率,优于基于单向LSTM结构的方法。