基于深度神经网络的视频描述研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ll13813568876
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频描述是计算机视觉与自然语言处理领域上的一个新兴研究课题,旨在自动为目标视频生成描述语句。在早期的研究工作中,视频描述生成方法一般采用视觉检测器对视频中的对象信息、场景信息以及对象之间的交互关系进行检测,并用基于模板的语言模型对各元素进行组合构成描述语句。该方法高度依赖于视觉检测器的准确性,另一方面套用模板生成的描述只能简单地陈述事件,而不能表达其中丰富的语义信息。随着深度学习方法在图像分类、视频识别和机器翻译等方向上取得的重大突破,越来越多学者开始关注基于深度神经网络的视频描述方法研究。在近几年视频描述的研究工作中常用编码器-解码器模型框架,通过卷积神经网络和递归神经网络等深度神经网络分别对视频进行特征编码和解码,并利用波束搜索算法排序选出最佳描述语句作为最终输出。本文主要围绕基于深度神经网络的视频描述方法展开了研究。首先,对深度神经网络相关理论知识以及视频描述方向上的核心技术问题进行了详细阐述。其次,本文深入研究了Yao等人提出的基于时序注意力机制的视频描述方法,并设计三组对比实验分别探讨了采用不同的训练学习率初始值、批尺寸和波束宽度对描述生成模型的影响。在Yao等人提出方法的基础上,本文进行了一系列的改进并提出了一种结合丰富语义信息和时空注意力机制的视频描述方法,涉及四点改进:1、融入场景信息和光流特征,分别表征视频内容位置信息和行为形态变化信息。2、嵌入双向LSTM编码器,通过学习视觉特征过去和未来的上下文信息,生成高层语义表达。3、采用时空注意力机制,让模型动态地关注与当前生成单词最相关视频帧子集中的关键特征。4、在波束搜索算法中加入长度归一化的处理。最后,分别在MSVD和MSR-VTT视频数据集上进行实验,结果显示本文提出的改进方法在几项常用的质量评价标准上得分均高于基于时序注意力机制的视频描述方法,同时获得了与当前主流方法相当的评估效果。
其他文献
作为国家级非物质文化遗产,四川清音具有特殊的艺术魅力与恒久的影响力。随着时代的发展,观众审美价值在变化,四川清音要继续受到现代人的喜爱,在演唱方面需要与时俱进。本文
<正> 在渠道测量中,为了计算挖填土施工量,需要就每一横断面分别计算出各挖方部份面积(如图1中阴影部份Ⅰ所示)和各填方部分面积(如图1中阴影部分Ⅱ、Ⅲ所示).计算工作通常是
期刊
近年来,随着国有企业改革的不断深入,各国有大、中型企业为了适应现代企业管理需要不断变幻着管理思路。如何在企业内部建立一套切实可行的管理模式,适合自身成长发展的需要,
<正>患者女性,55岁,发现盆腔肿块4年,尿频尿急2个月,近3个月无明显诱因出现尿急、尿频,无发烧,无腹痛腹泻。半月前经超声检查提示左侧附件区囊性包块,直径约11 cm。患者10年
高度信息作为人工地物的重要属性信息,在军事和民用上都具有很高的利用价值。针对人工地物高度提取的发展现状及存在的主要问题,对单张航片利用投影误差确定人工地物比高的原
<正> 社会调查研究是领导者的基本功,又是现代领导在实施其领导职能的全部过程中,沟通主观和客观的桥梁,是实现主观和客观相统一的基础。各类社会调查研究活动,都必须充分应
目的:对雪莲果(Smallanthus sonchifolius)进行化学成分分离研究。方法:采用硅胶柱层析、薄层层析和Sephadex LH-20凝胶层析,并通过波谱方法鉴定化合物的结构。结果:从雪莲果
目的通过对上海市嘉定区中医医院中药饮片使用剂量进行调查统计,了解该院中药饮片处方剂量现状。方法抽取该院2013年度1 000张中药饮片处方,对中药饮片使用频率、超剂量药味
我院将护理文化作为共同的价值观,围绕"用心服务,创造感动"的服务理念,实施"以人为本"、"以病人为中心"的人性化护理服务,提高护理人员的综合素质,关爱病人,落实人性化操作,
女性绝育术后严重并发症1例附属医院妇产科贾殿菊,李瑾,张秀荣关键词输卵管结扎;并发症;子宫切除术患者34岁,农民。半年前,因妊娠3个月,在当地县医院行钳刮术,术后11天在乡医院行输卵管结扎