基于门控循环单元的填空式图像问答

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:wellstudyc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能设备的升级和网络技术的迅速发展,人们接触到的图像越来越丰富和多样化。如何让机器更好地理解图像的语义信息并为人们的生活提供便利已成为图像研究的热点之一,尤其近几年在深度学习和跨模态领域(计算机视觉和自然语言处理)的巨大突破,图像问答任务已成为人工智能的重要研究方向。根据不同任务情形,研究者们提出了很多解决方法,基本思想通常都是提取图像特征与文本特征融合再对答案进行预测,或是在像素级别使用注意力机制对物体空间进行推断,也有研究者引入外部知识来提高图像问答的准确性。本文考虑融合图像的全局和局部视觉特征来充分利用图像问答过程中所表达出的视觉语义信息,提出了一个新兴的语义双向嵌入的填空式图像问答模型,该模型通过学习跨模态语义信息的相关性来预测答案,在公开的图像问答数据集Visual Madlibs上进行实验,并与最新的实验方法和设置的实验基准进行比较。本文主要包括以下几个方面的研究内容:(1)本文图像问答任务采用的是包含多个候选答案的填空式问答,大多数图像问答都将关注点放在视觉信息级别,而忽略了问答中问题本身所能提供的语义信息。考虑到问题的具体化比图像特征更容易追踪和理解,在将词向量特征嵌入到训练模型中时,填空式问答空格前后的文本语义信息能给模型预测答案提供有效的逻辑推理方向和内容提示信息,尤其是在基于时间序列或图像情感分析有关的复杂任务场景中,本文的问答方式能充分利用门控循环单元的优势来获取文本的语义信息。(2)提出了语义双向嵌入的门控循环单元(Semantic Bi-Embedded Gated Recurrent Unit,SBE-GRU)来融合图像特征和文本特征,该模型结构可以更大程度的关联到主动、被动以及基于时序等形式问题的前后语义信息,并使用扩展的GRU网络结构来保持视觉和文本在高维空间的语义一致性。另外,我们直接使用候选答案中的答案列表参与模型的训练,可以在提升模型训练效率的同时还能帮其精确有效的预测答案。(3)使用了全局和局部图像的联合特征来描述深层次的图像语义信息,通常全局特征代表图像整体场景,局部特征代表图像中目标的精确信息,再对两种特征进行融合参与模型训练。这样使得在训练中能让计算机“看”到图像并“理解”图像内容。同时,还在模型中引入了注意力机制,让问答模型可以根据问题去关注图像特定区域的内容,能够降低因全局视觉信息引入的图像噪声。
其他文献
近年来,很多科研单位对公有云平台能否保护其内部业务数据提出了质疑。而私有云的数据中心架构在企业防火墙内部,较公有云相比更为安全。因此如何快捷方便地部署高可靠的私有云科研管理平台,成为亟需解决的问题。本文针对学院科研管理需求,计划在学院内部署私有云平台,通过此平台,可以对学院基础设施进行统一调配,实现对实验数据和相关文件的控制访问,确保学院内部信息数据安全以及资源的合理利用。论文针对目前OpenSt
在机器学习、数据挖掘等领域中,以模型为基础的聚类分析较为重要,而进行聚类分析时常用的模型为有限混合模型,该模型对于聚类分析的发展有很大的影响,建模质量也直接影响了聚类分析的有效性。本文针对有限混合模型的特性和图像分割的共性问题,以非对称分布、有限混合模型理论为基础,对基于非对称有限混合模型的图像分割算法进行研究,探讨了不同分割策略的优劣,深入探究了脑磁共振图像的先验表征机理,进而构建了非对称有限混
随着社会发展与科技进步,自助终端在生活中扮演着极其重要的角色。地铁售票终端作为最普遍的自助设备之一,其人机交互设计的优劣直接关系到用户的使用感受和系统的功能实现。在人口老龄化的背景下,针对地铁售票终端的适老化交互设计研究势在必行。多通道交互设计是指在交互过程中使用多个感知通道与计算机系统通信的交互方式。本文基于多通道交互设计理论,提出了能够用于适老化交互设计的通道补偿机制。该机制以用户的认知和行为
口腔癌等口腔疾病由于普遍在较晚时期才被发现,导致治疗不及时,甚至引起死亡,因此研发有效的成像工具对于口腔疾病的早期诊断至关重要。光学相干层析术(Optical Coherence Tomography,OCT)作为一种新的生物医学光学成像技术,具有非侵入、高分辨率、成像速度快、灵敏度高等优势,在口腔疾病的早期诊断上具有重要的应用前景。本文针对手持式口腔OCT成像系统研制中的一些关键问题进行了研究。
阐述一种电力系统继电保护二次回路故障状态实时监测方法,利用电流极限圆和电压极限特征检测方法进行故障特征提取,通过实时频谱检测对故障状态参数进行定位识别,构建定位监测模型。
由于非致冷红外焦平面阵列系统具有重量轻、无需致冷、成本低等优点,有广泛的军用和民用市场,因而这项技术是一个行之有效的发展新方向。本课题即针对非致冷红外焦平面探测器开展研究工作。 课题的重点放在非致冷微测辐射热计焦平面阵列,这种非致冷红外产品的设计研制工作包括:设计和模拟工具的研究、材料选择和器件制作工艺的研究、探测器和读出电路的设计研究、真空封装和性能表征的研究等。作者主要进行了探测器模型仿
光束经过烟雾、生物组织、毛玻璃、混浊水体或其他散射介质时会发生强烈的散射现象。光束在这些介质内部发生多重散射后,在探测面上表现为无序的光学散斑,传统的光学系统无法有效的探测被散射介质遮掩的物体。因此,研究透过散射介质的成像技术是现在光学成像领域的热点问题之一。本文针对这一热点问题,用两种手段实现了透过散射介质成像,并基于成像手段实现了透过散射介质对运动物体进行跟踪。本文详细研究了光学散射现象中散斑
雾计算是一种新兴的计算技术,它将云计算服务扩展到网络边缘,例如网络、存储和计算。它具备了各种特性和功能,如降低服务延迟、大规模地理分布、异构性、实时性和移动性。而随着新的计算模式,雾计算面临了新的挑战,其中由于雾环境中分布式的设备框架,安全性和隐私性成为了最大的关注点之一。在本文中,我们主要关注与雾有关的各种安全和隐私问题。从各种安全问题出发,以雾计算的角度,选择了两个不同的问题,提出不同的唯一解
数字化学习因其便捷,便于共享,学习形式新颖等特点,已经广泛应用于国内外教育领域的教学过程中。面向中学STEM学科,虚拟实验作为一项典型的数字化学习模式,有助于解决传统学习模式下学生实验能力薄弱的问题。目前,虚拟实验缺乏与学科知识的紧密结合,而结合了人工智能领域的相关研究成果的知识图谱,可以辅助教师与学生更好地通过虚拟实验完成学科知识的教学与学习,且在学生自主式实验学习过程中发挥着重要作用。本文的主
自1999年扩招以来,我国高等教育无论是在教学规模,还是在治学水平方面均发生了翻天覆地的变化[1]。当前,我国接受高等教育的学生数量已经位居世界前列。面对如此庞大的学生规模,实现校园统一的信息化、数字化管理已经成为我国高校管理发展的主要趋势。鉴于此,本课题研究的学生培养过程数据管理系统旨在为高校二级学院学生教学管理工作提供一个全面、合理、可靠的信息管理平台。该平台囊括了目前学生培养管理工作所需的所