用于视频问答的多级注意力循环神经网络算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zhao2345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频是网络中信息量最大的载体之一。如何更快更好地自动理解视频内容,获取所需信息,是一个十分有挑战和有意义的问题。本文从最能客观验证效果的视频问答任务着手,给定一段视频和一个问题,选出最准确的一个回答,借此来探索对上述问题更好的一种解决方案。在当下处理视频问答任务的方法中,大部分都是基于静态的图像特征,利用比较简单的模型来实现的。这些方法其实无法回避两个问题:第一,这些基于静态图像的方法,很可能无法很好地利用到视频帧之间的连续性,来捕捉到一些问题相关的内容。第二,这些基于简单循环神经网络的方法,对于较长的输入序列,有可能出现记忆涣散的情况。使得完成学习后,反而丢失了本应作为答案的重要信息。针对上面两个问题,本文在以往解决方法的基础上,采用了动态的视频特征,.以及设计了能够进行多粒度学习的多级注意力神经网络,从而能捕捉视频更完整的信息,同时也更好地做到边学习边关注问题,保留最有可能成为回答的内容。通过这种方法,在基于Youtube2Text和VideoClip两个经典视频描述数据集以前沿方法生成的问答数据中,取得了比以往已知所有方法更好的实验效果。同时,在实验的过程中,也通过对网络内部状态的分析,印证了本文提出的算法的有效性。
其他文献
光催化分解水析氢反应(hydrogen evolution reaction,HER)是一种极其重要的制氢手段。本文通过基于密度泛函理论(DFT)+U的第一性原理方法,分别系统地研究了单原子Co和Cu在TiO2(101
脂肪酶是一种重要的工业用酶,在食品生产、精细化工加工、生物柴油生产等领域中大量使用。Hyung-Kwoun Kim[1]等人,在油污废液中发现了一种变形杆菌来源的脂肪酶K80。本研究
采用等离子喷焊设备在Q235钢表面制备不同含量AlN、BN的Fe基合金喷焊层。通过光学显微镜、扫描电镜(SEM)和X射线衍射仪(XRD)研究喷焊层的组织和相结构。利用显微硬度计、磨损试验机和盐雾箱对喷焊层的硬度、摩擦磨损性能及耐蚀性能进行测试,并对其机理进行研究。研究结果表明:Fe基合金喷焊层的主要物相由α-Fe,γ-Fe和(Cr,Fe)_7C_3组成。随扫描速度的增大,喷焊层金相组织细化,显微硬
脂肪族聚酯具有优异的生物相容性和可生物降解性能,是一类非常重要的生物材料。但高度疏水、缺乏功能性和生物活性的不足限制了其在生物医药领域的应用。因此对脂肪族聚酯进
基于声表面波(Surface Acoustic Wave,SAW)技术的射频识别(Radio Frequency Identificaton,RFID)标签具有纯无源、读取距离远、环境耐受能力强、本身能实现传感量测量等优点
计算机辅助艺术设计例如计算机绘画、计算机自动上色等是科研人员长期进行探索的问题,因为与人类多样化的表达方式相关,而人类感受与复杂多变,使其成为一个挑战性强而又持续
立体传质塔板(Combined trapezoid spray tray,简称CTST)是一种具有特殊梯形立体结构的喷射型塔板,具有处理能力大、塔板压降低、传质效率高、操作弹性大、抗堵能力强、消泡
实体关系抽取是自然语言处理中一个重要的任务,命名实体识别是从自然语言文本中识别出具有特定意义的实体词,关系抽取是在实体识别的基础上从非结构化文本中抽取实体之间所存在的语义关系。实体关系抽取对语义理解、智能问答、机器翻译、本体及知识图谱的构建提供重要的支撑作用。实体关系抽取主要分为串联抽取方法和联合抽取方法:串联抽取方法,忽略子任务间依赖关系,易造成错误积累,并产生大量的冗余实体。联合抽取方法中参数
主流经济学有关地方政府竞争成就中国奇迹的文献大体包含两个方面,一个是官员晋升锦标赛理论,该理论认为政府之间的竞争就是官员之间的竞争,根据经济绩效来提拔的制度激励着
食源性病原微生物是全球食品安全问题的核心,环境微生物耐药性普遍上升的趋势对于食品安全中病原微生物的防控会产生极为不利的影响,加快新型抗菌物质的筛选研究工作对于保障