基于深度学习的中文唇语识别与关键词检测

来源 :华侨大学 | 被引量 : 0次 | 上传用户:kaezhu1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇语识别是一项集计算机视觉与自然语言处理于一体的技术,通过视觉信息识别讲话人所说的内容。传统的唇语识别方法需要人为设计特征,分类器训练难度大,研究进展缓慢。近年来,深度学习在诸多领域取得重大进展,使用深度学习方法研究唇语识别问题也逐渐成为研究热点。汉字数量多,比其它由字母组成的语言复杂,使得中文唇语识别任务更加困难。现实中,由于某些场景只需要识别关键词语,因此关键词检测识别在实际应用中非常重要。本论文的研究内容主要包括以下两个部分:(1)中文句子级唇语识别方法研究。分两个阶段对中文句子级唇语识别进行研究。第一阶段将唇部图片序列识别为拼音序列,该阶段使用融合的三维卷积和二维DenseNet来提取视觉信息,并用resBi-LSTM(residual bidirectional Long Short-Term Memory)解码视觉特征。该方法在中文数据集NSTDB上有效降低了拼音错误率,并在英文数据集GRID上降低了单词错误率。第二阶段将拼音序列识别为汉字序列,使用堆叠的多头注意力(Multi-head attention)学习拼音序列中的上下文信息,并建立与汉字序列之间的映射关系。由于预测的拼音序列中存在错误,该阶段得到的汉字序列错误率比拼音序列的错误率高8%左右。(2)唇语关键词检测方法研究。提出了一种基于样例的唇语关键词检测方法,判断查询样例是否出现在唇语片段中。第一步需要对数据进行处理,提取查询样例和唇语片段的后验概率特征,本论文采用唇语识别第一阶段的网络模型提取后验概率特征。第二步根据提取到的后验概率特征计算二者的相似度量矩阵。最后使用6层卷积和1层全连接,构建一个神经网络分类器对相似度量矩阵图进行二分类。本论文的唇语关键词检测在GRID数据集上进行研究。实验结果表明,在精确率、召回率和F1值三个指标上,神经网络分类器方法表现更好。
其他文献
介绍了30 MVA电炉在生产高碳铬铁时,合金中的硫含量随所用原料中硫含量的变化情况。通过用料对比和渣型分析,着重阐述了影响炉料级铬铁合金硫含量的因素和降低合金硫含量的方
1 病历介绍患者,28岁,停经34周,B超检查:宫内双胎,一胎儿羊水1.8 cm,宫内发育迟缓;另一胎儿羊水13.2 cm,胎儿腹水,鞘膜积液.患者平素月经规律,末次月经2001年7月5日,孕1产0,
目的研究不同剂型霉酚酸酯联合环孢素和类固醇皮质激素预防肾移植后急性排斥反应的疗效和安全性.方法选择28例首次接受肾移植的成年患者,手术后给予霉酚酸酯、环孢素和类固醇
阐述几种主流的移动定位技术,分析铁路生产关于移动定位的需求,结合生产实际讨论铁路移动定位系统的结构设计、关键技术,介绍移动定位技术系统的应用成果.
近日,上市公司半年报已披露完毕(ST长生除外)。今年上半年,新增了一批无实际控制人公司。Wind数据显示,截至9月10日,A股3542家上市公司中,无实际控制人公司达168家。由于这些公
<正>一、引言石油套管是石油钻探的重要器材,它是一次下井长期使用的石油专用管材,在油田生产过程中占有非常重要的地位,油气的成功开采与石油套管的性能密切相关。在石油
会议
建设一支高素质专业化的公务员队伍,不仅是新时期干部队伍建设的需要,也是加快我省经济和社会发展的需要.现就我省公务员队伍现状作一简要分析.
为去除心电信号(ECG)中较大的基线漂移以及50 Hz的工频干扰,提出了一种高效数字FIR滤波器设计算法.该滤波器的滤波过程非常简单,消耗的乘法器很少,计算复杂度很低.实验表明:
十一届三中全会以来,我国种子生产经营、管理和科研等领域经历了一系列的改革探索和深刻变化,为保障国家粮食安全、提升农业竞争力、促进农业可持续发展打下了坚实基础。公主
当前,国内经济型酒店竞争加剧,不仅有国内的已有的经济型酒店的大规模,很多企业家看准机会也开创了不同的酒店品牌,国外成熟的经济型酒店看准机会登陆了中国市场。现在的经济