基于注意力机制的唇语识别模型研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:ffdsfdsadsfafdsa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇语识别作为一种具有广阔应用前景但实现难度较高的技术,近年来一直受到计算机视觉领域受到极大的关注。但是目前的基于深度学习的唇语识别算法受限于卷积神经网络和循环神经网络先天的结构缺陷,虽然在字词级别能够得到较高的准确度,但在短语和句子等长结构文本场景中的表现仍然不是非常理想,有很大的进步空间。为在汉语条件下实现短语级别的唇语识别,本文基于注意力机制,结合卷积神经网络和循环神经网络,针对唇语识别场景的特点,提出了两种新的注意力机制:时空耦合注意力和多头自注意。在时空耦合注意力部分,主要针对三维卷积神经网络无法有效捕捉唇部细小动作变化以及卷积核学习特征显著性不强的缺点,在时间域和空间域中分别使用注意力机制,并将两者耦合后上采样计算出注意力分数在整个视频中的时空分布,以此提升网络提取唇部运动特征的能力。在多头自注意力部分,主要针对seq2seq结构无法有效建立汉语之间字词的关联性以及易过拟合的缺点,通过合并多个隐状态以及重新设计注意力分数的计算方式,极大地提升了在序列建模部分将特征转换为正确文本的概率。由于缺乏公开的中文短语数据集,本文设计建立了一个中文短语的自建数据集,并在该数据集上训练及验证了上述两种注意力的性能,同时针对整个算法的特性设计了合适的训练策略。最终算法获得了最优85.5%的正确率,相较于目前学术界句级别效果最优的算法提升了5.8%的准确度。在本文的最后,使用了可视化的方法对算法进行了定性的分析,深入分析了注意力机制的机理并给出了下一步可行的改进方案。
其他文献
成果导向教育(OBE)理念已在工程教育领域被普遍运用,且我国正在大力推行“OBE认证”“新医科”“互联网+”和“一流课程与专业建设”等重大战略,普通本科高校正在转型发展,应用型人才培养已经成为不可逆转的趋势.在新医科背景下,护理学作为应用型学科,教学改革已迫在眉睫.因此,探索在OBE教育理念的指导下进行护理学专业课程的教学改革,目的在于明确教学目标,提升教学实效,保障课程目标与毕业目标的达成度,从而持续提升护理学专业人才培养质量.
随着社会发展和人们审美情趣的变化,消费市场对设计类专业人才的要求越来越高,在这一形势下,平面设计类课程如雨后春笋般涌现,但由于受到教学师资、教学资源、教学课时的影响,平面设计课程教学水平与社会对人才培养需求距离甚远,课堂教学存在一定僵化.中国素来享有“世界文明古国”之美誉,有着悠久的历史文化、鲜明的民族特色和独特的艺术理念,以传统文化为素材,结合平面设计课程,能将传统文化艺术与现代设计有机融合起来,达到技能与思想品德并举的双重教育意义.
社交媒体的开放性与便捷性降低了编写和分享虚假信息的成本,这对国家安全、社会稳定以及信息系统生态安全造成了很大威胁。由于社交媒体上的信息有着数量大,迷惑性高,模态多的特点,人工检测在及时性、覆盖度和有效性上存在局限性,研究虚假信息的自动化检测技术至关重要。当前基于深度学习的模型取得了很好的效果。然而,一方面,深度学习的黑盒性质使得模型缺乏透明性与证据支持,另一方面,虚假信息分类问题需要人们信任模型分
随着以GPU为代表的硬件计算能力的提升、大规模有标注数据集的开放以及以神经网络为代表的深度学习算法的进步,计算机视觉成为越来越多的研究人员的关注重点,深度学习算法被应用到越来越多的场景中,如自动驾驶、智慧医疗、工业检测、人脸识别等领域。图像分类作为计算机视觉研究中的热点,其目标是识别图像中主体信息所属的类别。在实际的应用场景中,由于天气、光照以及采集图像设备的差异导致同一类别的物体在不同的应用场景
随着《中国制造2025》的深入实施,我国正在全面部署推进制造强国战略,全面提高制造业创新能力、推动信息化与工业化融合,实现中国制造向中国智造转变.机器人行业人才缺口巨大,人才供需结构性矛盾日益凸现,培养大批工业机器人应用型人才成为当务之急.目前,“1+X”证书制度已经成为引领职教改革的重要抓手,是新时代我国职业教育改革的重要举措,它综合了学历教育和职业培训的优点,是一种新型校企合作双主体育人的人才培养模式.职业院校技能大赛是培养学生实践技能,提高中职生职业素养的有效措施,是提升学生实践水平,适应市场需求的