基于多模态特征聚合与动作引导的视频文本描述

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:lionschen2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着5G时代和自媒体时代的到来,互联网上各种视频数据呈爆发式增长,人们对于视频理解和分析的需求也越来越高。视频文本描述作为视频理解的重要分支之一,在视频检索、视频审核等领域应用广泛。视频文本描述算法旨在使用自然语言对视频内容进行总结和描述,是一个典型的跨模态问题,大多采用编解码的模型框架。目前基于编解码框架的视频文本描述算法的研究中,利用语法信息作为语义辅助模型,可以有效地监督解码器生成与视频动作相关的文本描述,但是仍然存在描述准确性不高、内容不够详细的问题。由于视频与文本之间存在异构特性,所以如何建立两者语义之间良好的对齐关系是解决上述问题的关键。因此,本文构建了一种多模态特征聚合网络编码器模型,包括两部分:运动感知模块,用于筛选与动作更相关的视频运动特征;特征增强模块,用于得到场景增强特征,两个模块相辅相成构成多模态特征聚合网络,得到既可以充分表达视频内容,又容易与文本语义对齐的视频聚合特征,从而提高视频编码器的性能。实验结果表明,本文提出的算法可以捕获高质量的视频特征,从而提高解码器生成文本描述的准确性。为了进一步提高解码器性能,建立视频与文本之间良好的语义对齐关系,使生成的描述更详细。在解码阶段,本文构建基于动作引导模块与语义对齐模块的解码器模型。利用动作引导模块,将动作特征与文本特征进行加权融合,以动态地指导LSTM解码网络,生成与动作相关的文本描述;利用语义对齐模块,构建语义对齐约束项引入损失函数中,在训练过程中学习视觉特征与文本特征之间的相关性,从而辅助视频语义与文本语义对齐。两个模块双管齐下,从而帮助解码器生成内容更丰富的文本描述。最后使用本文提出的算法模型在视频文本描述两个标准数据集MSVD和MSRVTT上进行实验与分析,充分证明了本文算法的有效性。
其他文献
人体姿态估计是从图像或视频中获取人体关节点的位置,主要应用于自动驾驶、安防领域、人机互动、游戏动画等领域。人体姿态估计包括2D姿态估计和3D姿态估计,在引入神经网络方法后,人体姿态估计取得了重大进展,但是在人体姿态估计诸多方法中,仍存在几个问题,如3D人体姿态估计中,多视角比单视角能够提供更多的信息且使用几何原理让网络的性能进一步提高,但也带来了更多的约束,导致使用的效率不高;在2D人体姿态估计中
学位
随着人力资源成本逐渐增加、生产生活自动化与智能化应用场景与任务逐渐复杂,多机器人系统与多机器人协同工作逐渐在“机器换人”进程中占据主要地位。多机器人编队控制是多机器人协同工作领域的一项重要技术,可以在多机器人系统作业过程中,为系统成员之间维持稳定的几何关系,为安全作业和高效完成任务提供保障。因此,本文以移动机器人作为编队成员,深入研究了多机器人系统的编队控制问题。本文主要的研究工作和成果如下:(1
学位
近年来,我国空间技术不断取得重大突破,航天器的出现使人类不断探索新的天体和空间,加深了人类对地球和空间的认知,航天技术已渗透到人类活动的各个领域。为了确定航天器飞行弹道状态,外弹道测量系统通过脉冲雷达、光电经纬仪等设备测量出航天器飞行过程中的测元数据,这些数据都是随时间变化的有序离散时间序列。由于在测量过程中任何测元数据都会受到仪器设备、测量技术、测量环境等因素的影响与制约,导致观测数据都不可能极
学位
现阶段,我国铁路运输具有全天候、运量大的特点,且同时向着载重化和高速化发展。在长期运营过程中,轨道会出现磨损、裂纹,甚至发生断轨,威胁行车安全。因此,促进铁路检修的高效化、智能化具有重要意义。目前,我国使用的检测设备均依靠多人现场合作完成探伤,易受外界干扰、工作量大、效率低,且时效性不足。因此,本文针对这一现状,研究并实现了一款适用于超声波轨道探伤小车的远程控制系统,主要工作如下:(1)分析实际探
学位
<正>各有关单位、船舶:长江南京以下12.5 m深水航道二期工程于2018年5月投入试运行,为保障长江江苏段12.5 m深水航道船舶通航安全,依据交通运输部《长江江苏段船舶定线制规定(2013)》、江苏海事局《船舶航行富余水深管理规定》(2014年第3号通告),江苏海事局组织航运、航道等部门专家研究制定长江江苏段12.5 m深水航道船舶最大吃水控制标准,现通告如下:(1)江阴以上(南京新生圩至江阴
期刊
非对称液压缸是一类常见且重要的执行机构,由于它结构紧凑、制造简单等优点,在实际工程的应用非常广泛。同时随着近些年的超级工程越来越多,这些工程负载很大,系统干扰严重,需要使用多个执行机构共同运作。但是如果液压执行机构的同步精度达不到所需要求,会大大降低设备的可靠性,同时安全问题也需要考虑。因此研究如何在现有的生产条件,确保阀控非对称液压缸系统和多液压缸同步系统的安全可靠,并提高系统性能是非常有研究意
学位
半导体材料中使用最多的是硅(Si),而经过提纯的单晶硅在集成电路领域的地位举足轻重,不管是当前还是未来很长时间也不会发生动摇。直拉法是制备单晶硅的主要技术方法,制备过程不仅工艺复杂、制备周期长,同时制备过程中用到大功率热系统,会产生较高的能耗,在规模化生产硅单晶的过程中,容易出现峰值功率超过工厂最大电力负荷从而产生安全隐患,而针对峰值约束下的问题,人工调度无法对全局资源进行把控,会导致生产效率低,
学位
随着人民环保意识的提高,可回收垃圾分类问题得到广泛关注,垃圾分类机器人能够有效的提高垃圾处理效率,针对机器人垃圾分类技术的研究也得到了更多关注。然而受限于实际工作环境的复杂性,二维目标检测方法无法准确获得待分类物体的位姿信息,且可回收垃圾种类繁多,难以通过视觉方法进行材质分类。本文针对以上问题,提出了一种基于6D位姿估计的可回收垃圾分类机器人系统,通过深度学习在位姿估计等领域的优越性能,为机械臂提
学位
在生产制造领域转向智能化、高效化转型发展的当下,制造业的生产特征由原来的单品生产、流水批量生产转变为小批量、个性化定制生产,生产过程变得更加复杂化。智能调度是企业生产过程中的重要环节,柔性作业车间调度问题(Flexible Job shop Scheduling Problem,FJSP)研究的是在一定工序约束和相关加工机器数量等约束条件下,对生产资源进行合理调配,为订单生产制定不同的加工顺序链,
学位
滚动轴承是旋转机械设备中的关键部件,但在实际应用中轴承的可靠性很低,所以对滚动轴承进行监控管理并对其进行快速故障诊断,有利于提高机械设备的安全性和可靠性。近年来,基于数据驱动的智能化诊断技术表现出了极大的优越性。但数据驱动方法训练模型时需要大量的样本信号,且要求训练数据和测试数据服从相同的分布,而实际工业环境中可能很难满足,导致诊断性能显著下降。针对以上问题,本文对三种场景下的轴承故障诊断问题展开
学位