面向自动问答的深度学习算法研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:java_flash
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能领域的迅猛发展,人们的研究方向已经不仅仅局限于某个单独的领域,而是呈现出一种多学科、多方向相互交叉的发展态势,比如图片问答、视频问答等等,它们都是将图像处理与自然语言处理相结合的产物,特别是图片问答在这几年已经得到了学术界的广泛关注,然而作为图片问答的延伸,视频问答的研究则略显不足,其主要原因如下:第一,因为视频的三维特性导致视频特征具有更加复杂且丰富的信息描述,所以视频特征提取困难;第二,视频特征和问题特征属于不同模态下的特征,它们之间很难进行有效的交互;第三,模型在进行最后答案预测的时候,需要考虑问题的全局语义特征,但是传统的语义特征提取模型时间复杂度往往都很高,如何进一步降低特征提取的时间复杂度成为了又一大难题。为了解决上述问题,本文结合图像处理和自然语言处理等相关领域的知识,提出了以下解决办法。(1)特征提取:本文从静态特征和动态特征这两个方面对视频的特征进行了有效的提取。针对之前已有模型使用VGG提取静态特征和C3D提取动态特征的不足,本文使用全新的组合方式,使用Faster R-CNN对视频的静态特征进行提取,使用P3D对视频的动态特征进行提取,然后对提取的视频特征使用多头自注意力模块进行计算,使得模型可以捕获视频特征中不同维度下的序列依赖关系。(2)视频特征与问题特征之间的交互:为了让模型能够更好的理解问题特征以及视频特征,本文提出了一种多阶段双向注意力存储单元,该单元主要包括两种注意力机制:第一种是基于字粒度的注意力机制,通过该机制不仅加强了问题中每个字对于答案预测所产生的影响,同时模型会以问题中的每个字为导向,从视频双通道特征中选取最相关的特征,从而极大的减少了计算复杂度。第二种是基于时序的双向注意力机制,通过该模块可以完成当前时间步下问题特征和视频特征之间的双向注意力机制的计算,实现多模态特征下的信息交互。(3)对于语义特征提取模型的优化:本文结合已有的门限卷积网络,提出一种双向的门限卷积网络。双向门限卷积网络和传统的循环神经网络相比,它可以在保证模型准确率的前提下,进一步减少训练所需的时间复杂度。最后,本文提出的模型在ZJB和MSVD-QA两个数据集上的实验结果均超过了大量的基线模型,证明了模型的有效性。
其他文献
微波光子学是一种将无线通信技术和光学技术两者相融合的新型技术,主要研究的是借助光学手段来生成、转换、处理、分配和传输微波无线信号。光子微波具有高频、能够在光纤中
现如今,重金属污染俨然已成为导致人类生活环境问题的最主要原因之一。重金属元素由于其特殊的物化性质,它所引起的环境污染具有易迁移性、持久性和高度的生物毒性,进而对人
伴随着电子技术和无线通信技术的迅猛发展,无线传感器网络在许多行业都取得了日益广泛的应用,定位技术作为无线传感器网络的关键组成技术,近年来取得了较多的学术成果。传统
石墨烯以其高的光学透过率和优异的导电性,成为可以替代传统氧化铟锡(ITO)和掺氟氧化锡(FTO)等的一种很有前途的透明导电薄膜。在石墨烯的各种制备方法中,化学气相沉积法(CVD)在制
移动式无线充电技术应用于自动引导运输车(Automated Guided Vehicle,AGV)能够提高工厂车间的工作效率,然而,基于阵列式或双磁极型轨道结构的移动式无线充电系统在能量传递过
近年来,太赫兹波因其光子能量低、对非极性非金属材料穿透性强等优越的性能而备受研究者关注,太赫兹成像技术也因此得到了快速发展,并逐渐应用于各个领域,其中包括医学、化学
在温差存在的情况下,热电器件通过Seebeck效应使热能直接转化为电能。它由p型和n型热电臂通过电极串联连接组成。Half-Heusler(HH)化合物是一种新型热电半导体材料,在中高温段
近年来,随着显示终端在人们日常工作和生活中丰富多彩的应用,有机发光材料及器件广受关注,目前已有多种类型的有机发光材料不断被研发出来,并成功地应用到各种电子及显示器件
发光器件的使用方便了人们的日常生活。其中,有机发光二极管(organic light-emitting diodes,OLEDs)因其具有制备简单、柔性和超薄等优势,而被广泛地应用到平面显示和固态照
微结构薄膜作为光学系统中不可或缺的一部分,大到航空航天,小到日常生活,微结构薄膜都有着十分广泛的应用。本文主要基于微结构薄膜制备技术的红外增透膜与金属/介质膜的研究