【摘 要】
:
近些年,深度学习技术成为人工智能领域的研究热点,在各类学习任务中得到广泛应用,并获得不俗的表现。随着研究的深入,人们开始探索关于跨媒体数据的表达与交互,视觉问答便是
论文部分内容阅读
近些年,深度学习技术成为人工智能领域的研究热点,在各类学习任务中得到广泛应用,并获得不俗的表现。随着研究的深入,人们开始探索关于跨媒体数据的表达与交互,视觉问答便是其中的热点研究问题之一。视觉问答属于计算机视觉和自然语言处理的交叉领域,其目的是希望系统可以根据图像和基于图像的问题,生成正确的问题答案。现有的视觉问答模型对图像大多采用自上而下的视觉关注,忽视了图像内容的完整性表达,造成图像特征冗余。并且多数模型通常只采用单一的注意力机制,无法有效去除图像和问题中包含的噪声。另外,由于模型中缺乏长期记忆模块,在推理答案的过程中会丢失部分有效信息,影响模型对答案的判断。综合考虑上述问题,本文基于注意力机制和记忆网络,展开对视觉问答系统的研究。通过增强对图像和问题的有效表示和记忆,提高视觉问答的准确率。主要工作内容如下:(1)本文提出一种基于注意力门控记忆网络的视觉问答模型。采用目标检测模型提取图像中的显著对象,以此作为视觉特征表示,实现对图像自下而上的视觉关注。并在此基础上进一步结合注意力门控记忆网络进行特征融合,经过多次迭代,达到对有效信息的长期记忆。通过在公开数据集上进行相关实验,验证了该模型的有效性。(2)本文以(1)中提出的模型框架为基础,进一步提出了基于多重注意力机制的改进模型。提出双向注意力机制处理图像特征和问题特征,实现两者的信息交互,有效去除与问答无关的信息。以此作为记忆网络的输入,实现对有效信息更为精准的检索与记忆。另外,在模型中引入基于注意力机制的物体计数模块,提高模型回答计数类问题的准确率。通过一系列对比实验,验证了改进模型的优秀性能。
其他文献
纳米科学与技术这一学科领域的不断发展与进步极大推动了当今社会的发展,纳米科技已经涉及到我们生活的方方面面,如:智能手机、便携式电脑、智能手环等电子产品。同时针对各
随着现代通信系统的工作频率由吉赫兹(GHz)逐步向太赫兹(THz)频段迈进,对通信系统信号的高速传输以及核心半导体器件的高频特性提出了更高的需求。本文基于应变技术以及绝缘体上
近年来,激光技术不断蓬勃发展,应用领域越来越广泛。在桥梁养护方面,激光除锈技术正在逐步取代传统除锈工艺。但目前激光除锈设备均需人工现场操作,不仅效率不高,而且存在一
交通运输行业竞争的激烈化发展使得民航类企业逐步将拓展国际化业务作为企业战略转型和发展的关键点与立足点,尝试在国内业务日趋饱和的竞争驱使之下谋求外扩式发展空间。南
MOOC作为一种新型的在线学习模式,迅速席卷了全球教育界,掀起了一场学习方式的变革,给传统教育注入了新鲜血液。但MOOC当前的现状并不乐观,存在学习空间中活跃度较低、讨论缺
随着电子学技术和激光技术的发展,激光雷达得到了快速发展和广泛应用。如今,激光雷达已经被应用于军方、科学研究、企业等各个领域。近年来,随着无人机、机器人、交通安全的
农村土地流转效率是指在农村土地流转过程中,是否促进农业增产,农民增收,促进机器化大生产,是否有效利用了农村土地资源。近年来,我国农村土地流转的规模呈上升趋势,但是从目
随着我国经济的快速发展,城市化的进程进入高潮,前进的步伐已经逐步从一线大城市转向县域、小城镇,城市与城市、城市与农村的联系与交流日渐密切,区域化、一体化发展成为大趋
有机发光二极管(OLEDs)由于其具有低成本,高亮度,大视角和能适用于柔性智能显示等优点,引起了人们的极大关注和研究。但是,按照理论分析,在常规的平面OLED发光器件中,由于金
1958年,江苏省政府为发展江苏特色手工艺,实现出口创汇并支援重工业发展,委托南京艺术学院开设了工艺美术专修科以培养工艺美术设计人才。南京艺术学院工艺美术专修科的创办