基于深度语义哈希的跨模态检索方法的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:Butterfly1982_2_2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨模态检索是指具有不同模态形式的数据之间的相互检索,即以一种模态的数据作为查询去检索另一种模态数据的过程。哈希方法因其低存储成本、快查询速度的显著优势受到越来越多的关注并被广泛应用于跨模态检索领域。然而,很多基于哈希的跨模态检索方法用传统手工设计的方式提取特征,这种方式提取出的特征质量不高,会严重降低检索的准确率。近年来深度学习发展迅速,基于深度模型提取的高质量特征使得检索的准确率显著提高,从而受到广大学者的关注。但在检索中仍面临一个困难,即模态数据间的异构性会导致语义鸿沟,这也会影响检索性能的提升。因此,如何跨越异构模态的语义鸿沟成为跨模态检索面临的一大挑战。本文针对当前面临的问题,开展基于深度语义哈希的跨模态检索方法的研究。本文首先研究分析了深度学习的相关知识,为深度跨模态模型的构建奠定了基础。接着,研究了哈希学习相关的算法,为基于哈希的跨模态检索提供理论指导。此外,还研究了注意力机制的相关技术。最后,依据上述理论知识,本文提出了一个基于深度哈希的跨模态检索模型框架。在此基础上,本文提出了基于标签的深度语义哈希跨模态检索方法(Label-Based Deep Semantic Hashing for Cross-Modal Retrieval,LDSH)。该方法用深度神经网络将每种模态的特征学习和哈希码学习集成到同一个框架中,用标签构建一个能描述模态间相似程度的相似度保留矩阵,最大程度地保留各模态数据丰富的语义信息。此外,将分块结构(Block Structure,B-Structure)引入到模型中,用来解决哈希位之间的冗余问题。通过实验证明了该方法在提升跨模态检索准确率上的有效性。进一步,在LDSH基础之上进行更深入的研究,提出了基于双重注意力的深度语义哈希跨模态检索方法(Deep Semantic Hashing with Dual Attention,DSHDA)。该方法用多标签训练一个语义标签网络(Semantic Label Network,Se Lab Net)以提取出一致的语义信息引导各个模态网络的训练,最大化跨模态数据之间的语义相关性。此外,用局部注意力(Lo-Attention)提取每个模态数据的局部关键信息,改进提取出的特征质量。用联合注意力(Co-Attention)进一步解决语义分歧。实验结果表明该方法能进一步提升跨模态检索的准确率。本论文的研究成果可以为跨越语义鸿沟的跨模态检索的研究提供新的思路,也可以将其用于实际应用中,具有很好的理论价值和广泛的应用前景。
其他文献
随着医学成像技术不断地发展与革新,医学影像在临床诊断中具有重要作用。由于成像模式不同,不同成像设备采集到的医学图像呈现出不同的模态,反映出人体中不同的结构信息。然而单一模态医学图像仍不能全面地刻画病灶信息。图像融合是一种将多模态图像融合生成一幅融合图像的图像处理技术。融合图像能有效提高医学图像辅助诊断的准确度和效率,因此研究多模态医学图像融合具有一定的理论和实际应用价值。现有三维的图像融合方法较少
随着移动设备和Web2.0技术的迅猛发展,基于位置的社交网络(Location-based Social Networks,LBSNs)逐渐在人们的生活中普及。目前主流的社交应用每天都在产生TB级别的时空数据,这些数据通常以签到数据(check-in)的形式记录,基于这些数据,学者们提出了多种类型的位置推荐模型,但其在处理数据稀疏、冷启动等问题时表现不佳,且时间效率与推荐精度低。针对这些问题,本文
深度学习凭借海量训练样本和不断提升的硬件算力的支持,在计算机视觉的多个领域里获得了巨大成功,基于深度卷积神经网络的模型目前已成为目标检测领域的主流。基于深度学习的目标检测分为两个研究方向:一是高精度检测,借助性能强大的运算设备刷新模型在通用基准数据集上的检测精度;二是轻量级检测,侧重于模型的轻量性和实时性,在检测精度不显著降低的同时尽可能减小模型的规模,使其更适合部署于实际应用场景中。当前的轻量化
运动目标跟踪是计算机视觉技术的一个重要研究领域。由于尺度变化、目标被大面积的遮挡、目标与背景相似度过高等问题给目标识别、运动目标跟踪带来了诸多的研究难点,多帧差分法、均值漂移以及运动估计给上述难点提供了可靠的解决方案。本学位论文以运动污染物的检测与跟踪作为应用目标,首先设计了一种基于均值背景法的运动污染物检测方法,然后设计一种基于状态估计自适应漂移的运动污染物跟踪算法,解决在目标污染物被遮挡情况下
《受伤的新娘》是歌剧《巴亚捷》中著名的咏叹调,由巴洛克时期著名作曲家维瓦尔第创作,这首作品显示了巴洛克歌剧咏叹调的艺术魅力,堪称为抒情咏叹调中的经典之作。本文介绍了维瓦尔第《受伤的新娘》这首咏叹调的创作背景,故事梗概以及歌词、伴奏、曲式结构的创作特点。结合自己的实际演唱,分别从歌唱位置、气息、咬字、情感表达这四方面进行演唱分析。并且对巴托丽和曹秀美的演唱进行对比分析。本课题的研究是本人对过去三年研
重唱是提高歌剧表现力最经典的方式之一,它是一个多人合作的演唱方式,通过两个或两个以上的声部、音色进行和声对位来打造声音的立体效果及音乐的张力性。本文将以歌剧史上第一批歌剧的作者,意大利作曲家蒙特威尔第先生的歌剧《波佩亚的加冕》中的二重唱《我也望着你》为基础,采用文献资料整理总结以及自身在学习实践中对二重唱的经验总结的方法,对二重唱作品《我也望着你》的旋律、曲式和声、演唱时对声音的控制以及舞台表演、
汽车保有量的不断增加在带来便利的同时也给交通增加了巨大的压力,不规范的驾驶行为是导致交通事故频发的重要原因,因此对驾驶行为进行监测与规范应成为避免交通事故的重要手段。针对上述问题与需求,本文做了以下几项工作:首先,本文研究了基于迁移学习的驾驶行为识别方法。该部分内容主要分为卷积神经网络的研究、图像增强技术和驾驶行为识别的仿真实验设计与分析。针对卷积神经网络的研究,本文先介绍了卷积神经网络的基本原理
作为一名美声方向的研究生,多学习国外咏叹调和艺术歌曲,是提升自己音乐修养的一个必备过程,对西方歌剧的作曲背景了解和音乐诠释也是我们专业学习当中的一个必备条件,本论文的主要研究目的是了解多尼采蒂的作曲风格,感受其时代背景下音乐对于文学戏剧节奏流动的感染力,通过他最著名的四部歌剧其中的一部歌剧《爱的甘醇》的人物角色塑造和刻画,由大到小,重点分析其中女主角阿迪娜的咏叹调《无情的伊索尔德》,通过对比不同版
江北区慈城镇地处宁波市区西北部,辖区面积102.57平方公里,区域人口约12万,是中国历史文化名镇、中国年糕之乡、中华慈孝之乡。慈城历史源远流长,拥有7000年的文明史、2200年的建城史和1200余年的县城史,是我国江南地区保存最为完整的古代县城,保留了超过60万平方米的历史建筑,素有"鼎甲相望、进士辈出、举人比肩、秀才盈城"之誉,涌现了一批文化界、金融界近当代名人。
期刊
随着无人机技术和计算机视觉技术的快速发展,赋予无人机(UAV)视觉感知和认知能力正在成为一个热门研究方向。目标检测作为计算机视觉领域的主要研究内容,是许多计算机视觉应用的基础任务。因此,研究如何在无人机航拍图像上实施高效目标检测对无人机应用的发展尤为重要。由于拍摄高度的原因,航拍图像中的很多目标在整张图像中所占的比例远小于一般数据集中目标所占的比例,因此航拍图像中存在很多小尺寸目标。这些小尺寸目标