基于深度学习的跨模态图文检索方法研究

来源 :桂林电子科技大学 | 被引量 : 2次 | 上传用户:lsyuanxue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代的今天,人们每天通过各式各样的网络应用产生海量的多媒体数据,其中包含语音、短视频、图片以及文字等。随之而来的是人们对于多样化检索的需求,比如图文检索、音频——视频检索等。为了满足人们的实际需求,提供更好的检索服务,广大研究者们致力于跨模态检索领域相关理论、方法以及实践的研究。由此可见,跨模态检索方法具有广泛的应用场景和研究意义。如何挖掘这些多模态数据中的有效信息,是多模态数据研究领域的重要问题。本文主要内容包括以下三个方面:(1)针对现有浅层网络结构无法更好的建模不同模态间的高层语义相关性的问题,本文提出基于栈式双模态自编码器的跨模态图文检索模型。该模型采用深层次网络挖掘不同模态数据间的高层语义关系,并采取layer-wise的训练方法,提升模型的学习能力。考虑到不同模态数据底层异构,但在高层语义上相关的实际情况,本文采用深层次网络的思路能够进一步提升跨模态图文检索的精确度。实验表明,与最佳的基准模型相比,改进后的模型在三个跨模态数据集上平均检索精度分别提高了4%、8.6%和3.7%。(2)针对现有模型在第一阶段忽略模态间的关联信息的问题,本文提出一种融合多种神经网络的混合深度神经网络模型。该模型将多模态深度信念网络、深度自编码器以及栈式对应自编码器网络融合为一个整体。通过融合多种类型神经网络,本文提出的方法建立了多层次的对应关联关系,最终挖掘了多模态数据的细粒度特征和多层次关联关系。实验表明,与最佳的基准模型相比,改进后的模型在三个跨模态数据集上平均检索精度分别提高了5.7%、13.2%和5.2%。(3)针对传统图像处理方法存在泛化性能较差且不适用于大规模数据处理的问题,本文采用VGGNet网络改进跨模态图文检索模型。借鉴深度卷积神经网络在处理图片数据方面表现出的优良性能,在上述两个模型的基础上,本文选取典型的深度卷积神经网络模型——VGGNet提取跨模态数据集中的图片特征。本文在多个跨模态图文检索数据集上完成与传统图像处理方法的对比实验。
其他文献
光折变空间孤子是目前非性光学领域的热点课题之一。对于光折变晶体中周期波导结构内非线性光波的传播,当光束自身的非线性效应与离散衍射效应相互平衡时,光波以稳定的波形向
在2015年的政府工作报告中,李克强总理提出了“互联网+”计划,目的在于促进电子商务的健康发展,积极推动互联网走向国际。同年9月国家旅游局发布了《关于实施“旅游+互联网”
金刚石中的NV-1色心由于其特殊的能级结构,室温下就能进行光学和自旋调控,并且具有毫秒量级的自旋相干时间,在众多的量子体系中被认为是最有可能实现量子计算的材料之一。到
自上世纪60年代信息技术高速发展以来,数以万计的数据停留在网络上,成为信息时代不可或缺的资源和生产要素,数字技术亦成为数字经济增长的重要推力,人类社会的信息联结达到了
本文利用扩张与混合积实现的方法,讨论了有限维单李超代数HO,SHO的阶化模.并且利用沈光宇教授混合积实现理论与胡乃红教授的方法,讨论了有限维单模李超代数KO的阶化模.其次,
阅读被公认为是促进英语词汇习得的一种有效途径。在词汇学习中,选择合适的材料相当重要,因为阅读中词汇附带的习得率较低。具有丰富的背景知识和较高的生词重复率的窄式阅读
在本文中,我们研究了基于逐步Ⅱ型删失样本和逐步第一失效删失样本的逆指数瑞利分布的统计推断和实证研究。这两种抽样方式能够大大节省实验成本,加速实验进程。具体地,基于逐步Ⅱ型删失数据的枢轴量方法可用来估计逆指数瑞利分布的两个参数。我们推导出点估计,并构造区间估计。为了比较该方法和传统极大似然估计方法的性能,我们进行了模拟研究,模拟研究的结果表明,该方法在偏差和均方误方面比极大似然估计方法表现的要好。此
经颅磁刺激(Transcranial Magnetic Stimulation,TMS)是一种针对脑相关疾病的物理治疗方法。该技术由于治疗效果显著,具有无创、选择性刺激等优点,近年来被越来越广泛地应用
随着移动互联网的飞速发展,功能多样的互联网在线应用丰富了人们的生活,深刻改变了人类的生活方式,促进了社会的发展。然而,移动互联网的广泛应用也带来越来越多威胁用户信息
本文主要研究特征p>2的代数闭域上无限维Cartan型李超代数H和SHO的阶化模.利用伸张和混合积实现的方法,确定了无限维模李超代数H和SHO的阶化模.进而,讨论了无限维模李超代数H