论文部分内容阅读
唇语识别是一项集计算机视觉与自然语言处理于一体的技术,通过视觉信息识别讲话人所说的内容。传统的唇语识别方法需要人为设计特征,分类器训练难度大,研究进展缓慢。近年来,深度学习在诸多领域取得重大进展,使用深度学习方法研究唇语识别问题也逐渐成为研究热点。汉字数量多,比其它由字母组成的语言复杂,使得中文唇语识别任务更加困难。现实中,由于某些场景只需要识别关键词语,因此关键词检测识别在实际应用中非常重要。本论文的研究内容主要包括以下两个部分:(1)中文句子级唇语识别方法研究。分两个阶段对中文句子级唇语识别进行研究。第一阶段将唇部图片序列识别为拼音序列,该阶段使用融合的三维卷积和二维DenseNet来提取视觉信息,并用resBi-LSTM(residual bidirectional Long Short-Term Memory)解码视觉特征。该方法在中文数据集NSTDB上有效降低了拼音错误率,并在英文数据集GRID上降低了单词错误率。第二阶段将拼音序列识别为汉字序列,使用堆叠的多头注意力(Multi-head attention)学习拼音序列中的上下文信息,并建立与汉字序列之间的映射关系。由于预测的拼音序列中存在错误,该阶段得到的汉字序列错误率比拼音序列的错误率高8%左右。(2)唇语关键词检测方法研究。提出了一种基于样例的唇语关键词检测方法,判断查询样例是否出现在唇语片段中。第一步需要对数据进行处理,提取查询样例和唇语片段的后验概率特征,本论文采用唇语识别第一阶段的网络模型提取后验概率特征。第二步根据提取到的后验概率特征计算二者的相似度量矩阵。最后使用6层卷积和1层全连接,构建一个神经网络分类器对相似度量矩阵图进行二分类。本论文的唇语关键词检测在GRID数据集上进行研究。实验结果表明,在精确率、召回率和F1值三个指标上,神经网络分类器方法表现更好。