基于注意力机制的可视化自动问答算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:houj521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
教会计算机学会逻辑推理是人工智能的终极目标,可视化自动问答(Visual Question Answering,VQA)是其中一个重要研究领域,它综合了计算机视觉(Computer Vision,CV)和自然语言处理(Natural Language Processing,NLP)两大研究方向,旨在解决不同模态信息之间的语义鸿沟。其任务被描述为:对于输入任意图像I和围绕图像I提出的自然语言问题Q,通过训练好的深度学习模型之后,计算机能够输出正确的自然语言答案A。典型的可视化自动问答算法可划分为三个部分:即图像编解码模块、问题编解码模块和多模态特征聚合的答案输出模块。本文经过对相关理论和技术的探索研究,提出一种基于注意力机制的可视化自动问答算法。该算法基于Pytorch框架,根据模块化的思想,一方面在利用VGG16提取图像空间向量的基础上,叠化软注意力机制从而更高效、准确地获取图像空间特征向量;另一方面利用LSTM编码文字空间向量,最大程度保留语义信息;最后通过基于块的聚合方法进行多模态空间向量融合,将答案输出化归为分类问题。为验证算法有效性和通用性,本文从不同模型、不同数据集、不同场景等多个维度进行实验。实验结果表明,本文提出的算法模型在VQA和VG数据集上达到约71.17%的准确率,在二分类问题上达到约83.89%的准确率,同时在抽象场景和中文问答方面表现良好,在训练时间、返回效率方面表现突出。此外,本文还成功地进行了 PC端移植,为产学研转化提供一种探索。
其他文献
近些年来,机器人逐渐成为科技、经济和社会的热门话题之一,逐渐被应用于各行各业中,比如工业生产、家居服务、教育娱乐等方面。随着人机互动的需求越来越多,出于任务目的、人
随着光纤激光打标机功能越来越完善,光纤激光打标机插补算法的研究和应用软件开发便成为一个重要应用价值的课题。伴随着激光技术、计算机信息技术、数控技术与微电子技术的
平面折反射摄像机由一个针孔摄像机和双平面镜构成.当双平面镜的夹角发生变化时,双平面镜之间存在一次或多次内部反射,而物体在双平面镜装置中会发生一次或多次反射成像.当双平面镜存在一次内部反射时,物体在双平面镜装置中会形成四个反射虚像.通过分析物体在平面镜中的成像性质,提出了两种标定摄像机内参数的方法.在双平面镜装置中,由任意一个空间点形成的反射点位于同一圆上,且这些圆是共轴的平行圆.根据平面镜成像的对
十八世纪,欧洲爆发了一场声势浩大、规模空前的思想解放运动——启蒙运动,以百科全书派为代表的狄德罗、孟德斯鸠、伏尔泰等一批激进的启蒙思想家高举“理性至上”的旗帜,一切生活规则皆出自理性。启蒙学者过分夸大理性,忽略了情感。卢梭敏锐的察觉到现代文明社会的弊端,文明社会的演进造成了社会的不平等和不自由,又导致了人性的堕落、道德的沦丧。卢梭在深刻的反思与批判的基础上转向道德情感,对情感倍加关注与重视。他以自
视频广告屏蔽行为是利用视频广告屏蔽技术将广告商投放在视频播放前或播放中的广告屏蔽,从而达到消费者无需观看广告直接观看视频的效果。司法实践中,新《反不正当竞争法》颁
本文设计了一套融合RFID和气体传感网定位的信息采集系统,可实现对有毒气体浓度的检测、泄露源的精准定位和采集RFID标签信息等功能。本系统排除了人为检测的危险,并根据电子
目的:通过探讨大动脉粥样硬化型(large-artery atherosclerosis,LAA)缺血性脑卒中(ischemic Stroke,IS)及小动脉闭塞型(Small-artery occlusion,SAO)缺血性脑卒中血栓弹力图(Thromboelastography,TEG)参数(R值、K值、Angle角、MA值)之间表达的差异,以及血栓弹力图参数与凝血指标纤维蛋白原(Fibrin
计算机视觉对三维重构的精确性有较高的要求,而三维重构的精确性与摄像机内参数有着十分重要的联系.一般来说,双平面镜折反射系统由两块平面镜和一个传统摄像机组成.该成像系统能产生一个物体的多个视图,利用物体的多个视图不仅能完成摄像机标定,而且通过它们可以重构出较为精确的三维模型..因此,双平面镜折反射系统具有重要的研究价值和意义.利用双平面镜折反射系统产生一个物体的五个视图.在透视图像上取五个点,其中一
近年来互联网等技术迅猛发展,计算机视觉的研究也越来越火热。目标检测是计算机视觉的研究重点也是一个难点。在日常生活场景中,图片成像时会受到外界环境的变化以及各种干扰
随着科学技术的飞速发展和经济的快速增长,无线电通信设备不断增加,使得整体电磁环境趋于复杂化,也使有限的频谱资源日益拥挤,日渐紧张,同时,导致监测频谱资源与管理频谱资源