基于多模态注意力机制的视觉问答研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:oo2009123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答是一个具有挑战性的多模态任务,它桥接了计算机视觉和自然语言处理两个不同的领域。具体来说,给定一张图片和一个与图片相关的问题,视觉问答模型会从二者中寻找有效信息,从而给出正确答案。由于图像和文本属于不同的模态,存在严重的语义鸿沟,因此如何高效的对齐不同模态间的信息、减少二者的语义鸿沟,是目前视觉问答领域重点关注的问题。本文针对当前视觉问答方法在多模态对齐阶段存在缺少局部空间信息和过度依赖语言先验的问题进行了深入研究,提出了两种解决方案。具体内容如下:1.目前大部分视觉问答方法在多模态特征对齐阶段仅使用了图像中的全局关系,而忽视了同样发挥重要作用的局部关系。因此,本文提出了一种全局关系中的局部再注意力模块,用来同时捕获图像中的全局和局部信息,并以此模块为基础搭建模型处理视觉问答任务。该模块主要由全局-局部再注意力机制和前馈神经网络组成。在全局-局部再注意力机制中,本文先使用自注意力方法提取特征之间的相关性(即提取全局关系),再使用深度可分离卷积获取特征中的局部关键信息。然后,将局部关键信息生成的权重矩阵作用于自注意力机制提取的全局关系特征,形成局部引导的全局特征。为了进一步增强特征的表示,本文将全局-局部再注意力机制和前馈神经网络进行结合,为局部引导的全局特征提供更大的表示空间和更多的补充信息。最后,使用Encoder-Decoder的方式搭建网络模型预测答案。通过VQA v2,Flickr 30K,Ref COCO,Ref COCO+和Ref COCOg数据集上进行的广泛实验,充分验证了该方法在视觉问答任务中的有效性。同时也体现了该模型在其他跨模态任务(图像文本匹配、指示表达)中仍有很强的泛化能力。2.针对传统的视觉问答模型在回答具有很强语言先验的问题时忽略视觉信息这一缺陷,本文提出了一种新型的上下文关系融合模型。该模型主要由视觉关系融合模块,问题关系融合模块和注意力特征融合模块构成。其中视觉关系融合模块和问题关系融合模块用来捕获不同模态间局部关键上下文线索信息,为模型提供丰富的上下文特征。为了进一步抽取重要的上下文信息,本文在关系融合模块后还添加了一个注意力特征融合模块以达到信息抽取的目的。最后,通过三个模块的共同作用,使模型能够较准确的区分语言先验中“好的”语义上下文和“坏的”语义偏见,从而抑制语义偏见的影响。为了验证本方法的有效性,在VQA-CP v2数据集上进行了验证。实验结果表明,该方法有效地解决了VQA中的语言偏见问题,且性能优于当前大部分的视觉问答模型。
其他文献
随着无线传感器网络(Wireless Sensor Network,WSN)的广泛应用,业界开始应用环境能量收集技术解决传感器节点的能量补充问题。而这类网络被统称为能量收集型无线传感器网络(Energy Harvesting Wireless Sensor Network,EH-WSN)。在能量收集型无线传感器网络中感知数据的可靠传输是值得研究的问题。近年来,也有少数专家学者研究数据传输的可靠性问
学位
随着互联网数字信息的爆炸式增长,人们越来越依赖信息检索工具。目前,就中英文信息检索领域而言,公开的检索系统和工具有很多且效果较好。然而对于蒙古文信息检索领域,无论是从相关研究还是落地应用系统均不成熟。近年来蒙古文信息化得到了高速发展,蒙古文网络应用层出不穷,积累了大量的数字化资源,因此用户迫切需要一种利用这些数据资源的平台。针对实际应用需求,本文的工作内容如下:首先,通过文献调研梳理当前蒙古文搜索
学位
在机会网络中,机会路由算法用于节点转发消息,是实现各种机会网络应用的核心技术。但是,独立运行的节点无法获得全局网络拓扑信息,在转发消息时具有一定的不合理性,导致机会网络中存在节点能量消耗不均衡、节点缓存使用不合理、网络拥塞控制不稳定等问题。为了解决上述问题,本文提出了基于时空属性的资源优化机会网络路由策略,包括三个相互支撑的机会路由算法:Prophet-TD、EC-CW、CW-5,以适应不同的机会
学位
随着互联网数字金融行业的发展,以及人工智能、数据挖掘、大数据技术在各大银行的广泛应用,中小型银行也开始实行线上线下多样的客户触点,从而满足客户对金融产品的选择、日常业务办理、线上线下快捷服务等需求,并建立起一套多样、智能、全面的金融智慧营销模式。为更准确、全面地洞察客户需求,提高客户忠诚度,减少银行资金流失,强化金融风险防范能力,在开展实际业务过程中,就需要对客户的账户资金变动情况进行预测,从而预
学位
车联网与移动边缘计算相结合扩展了车辆智能终端的计算和存储能力,可为车辆用户提供更多种类的应用。但车辆高速移动性与边缘计算网络就近服务特性的矛盾造成服务延迟甚至中断等问题,需要根据车辆位置进行服务迁移,才能保证边缘计算网络持续为用户提供服务。本文面向车联网场景中车辆应用的卸载需求,充分考虑车辆移动特性,结合路网模型从时延和成本两个角度综合考虑制定车辆终端卸载任务的服务迁移策略,将服务迁移问题转化为以
学位
数字化时代,数据已然成为企业的重要资产。企业需要采用数据备份、数据加密与数据分类等措施防止数据丢失或损坏,同时确保数据安全。然而,传统的数据容灾备份技术存在数据易丢失、数据易篡改、数据完整性无法保证与第三方不可信等问题。区块链技术具备数据不可篡改、数据可追溯以及多方维护等特点,可以有效地解决数据容灾备份中数据易丢失和数据易篡改等问题。因此,本文设计并实现了一种基于区块链智能合约的数据库容灾备份恢复
学位
高中阶段的数学学科知识的广度与深度都有明显提升,其中数学命题教学是基础性的教学内容,这一内容模块对学生的数学综合素养提升有明显帮助.深度学习对数学命题教学的高效开展有促进和引导价值,在教学中,教师以深度学习理论为视角,可以优化数学命题教学的设计与组织实施,培养学生的高阶思维.笔者通过分析数学命题学习实践现状、数学高阶思维培养与高中数学命题学习的融合可行性,提出深度学习与数学命题学习相融合的实践路径
期刊
以2020—2022年高考数学新高考卷Ⅰ为研究样本,基于SOLO分类理论,分析实施新高考以来高考数学命题趋势:(1)新高考更加关注对高阶思维的考查,落实创新性的考查要求;(2)新高考更加关注对同一主题下多个知识点的综合考查;(3)新高考对“函数”主题的考查容量越来越大、思维水平层次越来越高;(4)新高考对“概率”主题的考查思维水平层次逐年增加。文末基于研究结果给出了教学建议。
期刊
随着深度学习技术在自然语言处理领域的发展,以BERT模型为代表的新型语言模型得到广泛应用。然而有研究表明即使是高性能的语言模型也容易受到对抗攻击的影响。文本对抗攻击通过细微修改原样本语句中的字符或单词等内容生成对抗样本,从而造成语言模型对语句的情感判断出现错误,对语言处理系统的安全性造成威胁。当前,针对BERT模型的文本对抗攻击研究逐渐增多,但针对该类攻击的防御工作研究相对较少。对抗样本在对不同参
学位
随着大数据时代的到来,数据持有者为避免隐私数据泄露,选择在自己手中保存数据,因此形成“数据孤岛”。联邦学习正是在这个背景下提出和发展起来的,但联邦学习训练过程中存在隐私泄露风险。所以,如何在增强隐私保护能力与提高数据利用率之间维持平衡,是目前联邦学习亟待解决的问题。本文主要研究在联邦学习框架下的隐私保护问题。通过对目前已有的联邦学习隐私保护方案的了解以及深入学习,分析总结当前联邦学习面临的隐私保护
学位