基于轻量卷积和注意力机制唇读模型研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:zyyafeng621214
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习技术的研究和发展使得包含计算机视觉在内的许多领域都取得了令人惊叹的成就。自动唇语识别技术作为机器视觉领域下最具挑战的课题之一,旨在仅通过观察说话人的唇部动作变化来识别其所说的内容,在深度学习的热潮下也获得了进一步的发展。但是尽管如此,由于唇部动作的微弱性和语言本身的丰富性等因素引发的种种难题,导致自动唇语识别技术目前依旧存在着许多问题有待解决。唇语识别技术是一项数据驱动的研究,使用深度学习的算法则更加离不开大量的数据作为训练和评测基础,但是当前的唇语数据集特别是中文语料由于数据源匮乏并不能满足唇语识别研究的方方面面。尽管当下有来自于中科院以及浙大的大型数据集可供研究,但是依旧缺乏一个面向日常常用口语的唇语数据集。考虑到以上情况,本文的首个工作即构建了一个可用于深度学习研究的较大型中文常用口语数据集,并提出了一个完善的数据选取和数据处理的策略及算法流程。此外,本文从唇语识别中的难点以及当前研究未考虑的盲点出发,提出了一个崭新的唇语识别算法模型,该模型主要由前端和后端两个模块组成,分别对应了本文的研究重心和创新点。模型在其前端模块通过使用组卷积结构,轻量化了当下唇语识别研究中参数量庞大的前端,并使用空洞卷积学习唇部的多尺度特征,以增强模型在面对唇部分辨率变化时的鲁棒性;并且模型在其后端模块引入了一个与注意力机制结合的循环神经网络,通过使用内外注意力相结合的策略,让模型不仅可以关注到输入和输出之间的相关区域,还能让模型关注到句子本身的内部结构相关性,在一定程度上解决了模型在识别过短句子时由于语义不丰富导致泛化能力不佳的问题。此外,根据当前已知信息,本文首次在自动中文唇语句子级识别研究中分析了普通话口语中句子长度对模型识别性能的影响。为了验证模型在唇语识别任务不同数据集中的通用性,除了在本文所设计的中文数据集上研究外,还对多个可公开使用的大型室外英文数据集上进行了实验以及不同算法之间的对比分析,并取得了很好的结果:在LRW数据集上的分类准确率为85.12%,超过了当前最好结果2.12个百分点;在LRS2和LRS3上,在不使用语言模型的情况下取得了与当下最好性能相接近的性能。同时,为了更好的应对唇语识别模型收敛慢、易过拟合等问题,本文针对性的设计了四种训练策略来获得更高效的训练和更泛化的性能。
其他文献
随着互联网的普及与移动计算等技术的快速发展,数据采集与利用变得越来越便捷,人们在享有数据分析与应用所带来便利服务的同时,也存在个人隐私泄露的风险。个人隐私泄露对人
本文提出一个与二阶谱问题相联系的非线性波方程并且导出它的达布变换及其精确解,主要工作如下:第一章简要介绍了孤子理论的发展历史与孤子方程的主要求解方法,引出本文所要研究的与二阶谱问题相联系的非线性波方程及其具有约束的可积方程;第二章我们首先找到了这个非线性波动方程的Lax对,然后构造具有λ的n次幂展开函数形式的规范变换矩阵T.借助两个二阶谱问题之间的规范变换,通过对空间与时间两个部分的严谨证明,我们
村干部作为农村经济社会发展的主要参与者和直接领导者,肩负着保持经济发展、维护民族团结、加强基层治理、带领群众脱贫致富等重要社会责任。其素质高低、能力大小直接决定着党和国家在农村各项决策部署的贯彻落实,因此村干部队伍建设可谓是当前农村工作的重中之重。鸡西市既是黑龙江省的工业大市更是农业大市,农村人口数量庞大,农业收入在经济发展中占有较高比重,随着乡村振兴战略的深入推进,村干部队伍建设水平也在逐步提升
股市上行的牛市期间系统性风险较低,股市下行的熊市期间系统性风险增大。牛熊市代表不同市场状况下的系统性风险存在显著差异。当市场环境陷入低迷时,资产组合风险会随系统风险的增大而水涨船高,此时,基金的避险意愿增强,规避风险的需求更大。为了降低市场环境不佳带来投资组合的下行风险,基金将组合资产朝着更为稳健的股票进行安全投资转移。企业积极承担社会责任所形成的声誉资本具有“类保险”效用,在面临负面事件或不确定
乡村振兴是推进我国农业农村发展的新战略,农村一二三产业融合发展是实施乡村振兴战略的有效途径。自2015年中央“一号文件”首次提出“农村一二三产业融合”起,农村一二三产业融合问题备受瞩目。农村一二三产业融合并非简单的农业与第二产业和第三产业相叠加组合,其实质是在农产品生产即农村第一产业发展的基础上,进一步发展以农产品加工为主的第二产业和以农产品及其加工品销售为主的第三产业,使农业与农村二三产业在同一
近年来,随着我国经济的高速发展,以及企业不断缩减生产成本的要求,越来越多的生产企业开始在生产车间引入智能化机器人分拣作业系统。其中,DELTA并联分拣机器人在食品、医疗、电子生产等行业被广泛使用。针对目前分拣生产线中机器人精准拾取的生产要求,对于分拣过程中轨迹规划与控制策略的研究具有非常重要的意义。本文根据药品分拣生产线中的实际需求,首先对机器人分拣药品的过程进行了运动学建模分析,在此基础上对DE
电力系统中存在大量的非线性负载和现代电力电子装置,导致电力网中产生大量谐波。谐波的注入不但对电能质量造成严重影响,而且严重时危害电力网的安全稳定经济运行。谐波潮流计算是进行谐波分析与谐波治理的重要基础,故寻求快速精准的谐波潮流计算方法是电力界关注的研究方向。因此,本文针对电力系统谐波潮流计算方法的研究具有理论意义与实用价值。为精准快速地计算电力网络中的谐波潮流,首先以建立典型的电力网中产生谐波元件
随着全球能源互联网的建设与用电规模的增大,现有电力系统网架结构相对薄弱、布局不合理等问题日益突出,统一潮流控制器(UPFC)作为一种性能优良的串并联综合补偿装置,能够灵活调节线路参数,发展前景广阔。如今随着不对称负荷增多,线路耦合等因素影响,电网三相不平衡情况更趋普遍,研究UPFC在不平衡工况下的控制策略,使其能稳定有效运行,具有现实意义。本文在认真研究国内外相关文献的基础上,分别就UPFC串、并
多孔陶瓷是一种新型的工程陶瓷,最显著特点是内部存在大量气孔,结构比较特殊,具备很多的优良特性,如硬度高,耐高温、耐磨损等,目前已经被很多工程领域采用,其摩擦磨损性能也
物联网作为21世纪最具创新的技术之一,已经吸引了工业界甚至学术界的广泛关注。它实现了从万物互联到万物智联的蜕变,为未来金融和非金融领域带来了全新的发展机遇。此外,区块链的去中心化、不可伪造等特性为物联网提供了技术支持,拥有着巨大的发展潜力。然而,物联网在改变人们生活方式的同时,也存在着一些亟待解决的安全问题,能否提出有效的解决方案将直接影响到物联网的落地与扩展。本文将探索物联网的典型应用:电子票务