基于语义共享子空间的跨模态检索算法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:asdfzxcvasdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网时代,信息数据如图片、文本、音视频等呈现爆炸式增长。如何从这些语义关联且模态多样的数据中获取有价值的信息显得尤为重要,跨模态检索也因此备受关注。与图片检索等单模态检索不同,跨模态检索能跨越不同模态实现信息检索,更能满足用户日益增长的检索需求。而不同模态的数据特征表示间存在天然的异构鸿沟,无法直接度量其相似性,同模态数据的底层特征表示与高层语义类别间又存在语义鸿沟,难以获得语义一致的数据表示。因此如何挖掘多模态数据间的匹配信息,弥合异构鸿沟与语义鸿沟,提升跨模态检索性能,是当前亟待解决的问题。论文主要研究基于语义共享子空间的跨模态检索,即将不同模态的数据映射到一个同维子空间,并在该子空间中利用简单的距离度量函数度量其相似性。面对多模态数据间的异构鸿沟与语义鸿沟问题,论文在如何更充分的利用数据间的语义一致性、辨识度差异、局部一致性等方面进行了深入研究与分析,主要创新思想及研究成果如下:(1)针对现有的任务导向型的跨模态检索方法对检索模态的语义一致性考虑不足的问题,提出一种联合线性判别和图正则的任务导向型跨模态检索方法。该方法在一个联合学习框架中为不同的检索任务构建不同的映射机制,将不同模态的数据映射到公共子空间中以进行相似性度量;学习过程中结合相关性分析和单模态语义回归,保留成对数据间的相关性以及增强查询模态样本的语义准确性,同时利用线性判别分析保证检索模态样本的语义一致性;还为不同模态的数据构建局部近邻图以保留结构信息,从而提升跨模态检索的性能。在Wikipedia和Pascal Sentence这2个跨模态数据集上的实验结果表明,该方法在不同检索任务上的平均m AP值比12种现有方法分别提升了1.0%~16.0%和1.2%~14.0%。(2)针对现有的基于深度学习的跨模态检索方法对不同模态样本的语义辨识度差异考虑不足的问题,提出一种深度辨识度迁移的跨模态检索方法。该方法最小化文本语义标签与文本公共表征间的语义损失以保留文本公共表征的语义一致性,最小化文本解码向量与文本原始特征间的重构损失将文本原始特征的语义高辨识度迁移至公共子空间。与此同时,最小化公共子空间中的模态不变损失与样本相关性损失以消除不同模态公共表征间的模态差异,保持模态间的成对相关与模态内的局部一致,从而将文本公共表征的语义高辨识度迁移到图片公共表征。在Wikipedia和Pascal Sentence这2个跨模态数据集上的实验结果表明,该方法在不同检索任务上的平均m AP值比12种现有方法分别提升了0.7%~40.6%和3.0%~54.0%。(3)针对现有的基于公共子空间的跨模态检索方法对模态内局部一致性挖掘不充分的问题,提出一种融合图卷积的跨模态检索方法。首先采用K近邻算法为不同模态的样本构建各自的模态图,通过对称的图卷积编码网络和对称的多层全连接编码网络对不同模态样本的原始特征编码并将编码特征融合输入权重共享的公共表征学习层。之后联合优化公共子空间中模态内的语义约束与模态间的模态不变约束为不同模态的样本学习高度局部一致且语义一致的公共表征。在Wikipedia和Pascal Sentence这2个跨模态数据集上的实验结果表明,该方法在不同检索任务上的平均m AP值比12种现有方法分别提升了2.3%~42.2%和2.4%~53.4%。
其他文献
不同的线条样式能传递不同的情感,探究线条及其衍生形式的情感表达模型能够揭示影响情感表达的根本因素,发展更多情感表示形式,并促进情感表达软件的开发与人工智能对不同表达形式的情感识别。本文的工作分为以下四个方面:1.探究线条不同样式与情感之间的映射关系。为了探究不同样式线条的情感表达,编写程序创建了87种样式的静态水平线条,采用27个情感效价词汇与2个情感唤醒度词汇,招募测试者进行线上测试,为每种样式
视频监控是“天网”系统的重要组成部分,也是近年来治安防护水平提高的重要推动力之一。随着视频监控设备的普及率逐年上升,监控系统智能化的需求也日益提升。目前,国内大多数的视频监控系统都需要人工值守,安排监控人员24小时轮班来实现监管。通常,每个监管人员需要同时监控多个显示屏,存在效率低、抗干扰能力差、容易受监管人员主观意识影响等问题。随着科研人员对图像处理、视频分析、行为识别等技术的研究越发深入,智能
随着互联网的高速发展,很多电子商务平台逐渐兴起并提高了大众生活质量,但随着数据规模的爆炸式增长,正在使用推荐系统的互联网平台(如阿里巴巴、Paper Weekly等)面临着严重的信息过载问题,无法针对用户特点做有效的个性化推荐。由于传统推荐算法的模型表达能力不够强,而概率图模型同时具有概率论和图论的优势,故可使用概率图模型对推荐问题中各变量之间的依赖关系提供解释性更强的建模,但很多基于概率图模型的
随着社会的飞速发展,大型集会和游行活动的增多,活动中频繁的践踏事件造成大量人员伤亡,因此人群计数的研究成为近几年来计算机视觉领域的主要研究方向之一。本文通过深入分析卷积神经网络中的优势、充分考虑特征层内部之间的联系以及从分群分布随机的角度出发,提出以下三种不同的人群计数网络结构模型。(1)提出基于特征自学习多尺度残差生成对抗人群计数算法(Generative Adversarial Network
人体行为识别旨在针对数据中人体的行为和意图进行识别和理解,是计算机视觉领域一个重要且热门的研究课题,并在机器人技术、人机交互和智能监控等领域起着至关重要的作用。虽然行为识别算法在早期的研究中已经取得了极大的进步,但仍会受到光照改变、尺度变化、细粒度动作多等因素的影响。随着行为识别数据日趋丰富多样,利用多模态数据间的互补优势实现联合预测来提升识别性能逐渐成为许多研究者的重点研究方向。许多现有工作倾向
在文化消费升级的背景下,敦煌文化数字化产业进入了一个新的发展阶段。敦煌文化App作为敦煌文化的重要组成部分,是文化和历史记忆的载体,是敦煌文化与受众之间的桥梁。以移动端平台为基础的敦煌文化数字化传播方式,不仅为敦煌莫高窟带来了利润,也为受众提供了独特而个性化的体验。但目前市场上对敦煌文化App的设计还存在一些不足,这使得对敦煌文化App的设计研究越来越迫切。本文共五章,首先根据莫高窟文化研究现状,
为了应对日趋严峻的物联网恶意软件攻击,需要对恶意软件进行详细的分析并获得有效的威胁情报,从而增强对物联网攻击的发现与预警能力。本文面向物联网威胁情报的需求,分别从恶意软件分析、轻量级物联网异常流量检测角度展开威胁情报挖掘关键技术研究。本文的主要工作和创新内容概括如下:(1)针对当前物联网恶意样本的检测率不高,物联网恶意软件架构复杂,用于训练的正常样本提取困难,动态分析检测耗时、耗费资源等问题,提出
甲状腺癌是全球增长最迅速的、最多见的内分泌恶性肿瘤之一。在最近的几十年中,甲状腺癌的世界发病率显著升高。甲状腺癌还是女性中排名第五的最普遍的癌症,并且女性患癌的概率是男性的3倍。由于甲状腺癌复杂的疾病进展过程,预测这种癌症的潜在生物标志物仍然面临巨大的挑战性。本文基于TCGA数据库和GEO数据库中甲状腺癌的多组学数据以及新近开发的一些特定的生物数据存储库,通过基因差异表达分析、构建生物网络以及基因
信息的爆炸性增长导致数据流广泛出现在各个应用领域中,如无线传感器网络数据流、股票交易数据流、电子商务数据流等,如何高效获取这些数据中蕴含的信息成为数据流挖掘的主要任务。区别于一般的静态数据,数据流通常具有到达速度快、规模大、动态变化等特征,并且数据流中的目标概念随时间推移会发生改变,导致概念漂移发生,严重影响数据流挖掘效果。此外,数据流中通常存在类别不平衡问题,导致少类实例中蕴含的信息难以获取。因
近年来,因严重交通事故、火灾及工业意外等所致的高能量损伤急剧增多,据估计我国每年因此而接受创面修复手术的患者有近百万例。不合理的术前设计方案易造成皮瓣崩裂、坏死等而引发患处功能障碍,甚至可致截肢,给患者增添更多的痛苦和经济负担。因此,研究并创新现有的术前皮瓣设计方法,快速制定合理的术前指导方案,是基础研究转化为临床应用极好的切入点,具有重要的理论意义和实际价值。本文面向临床中的创面实例,就三维创面