面向大规模多媒体检索的跨模态哈希方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:rgy1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨模态检索(Cross-Modal Retrieval)旨在为不同模态的多媒体数据(如图像,文本,视频等)提供相互检索的能力。相较于传统的单模态数据检索(如图像检索图像),跨模态检索能够提供更加多样化的检索体验,如使用视频数据检索相关的文本描述等。但是由于不同的多媒体数据往往具有不同的数据分布,因此无法直接利用传统相似性度量手段对它们之间的相似度进行度量。当前主流的解决方案是先将不同的多模态数据映射到一个公共的子空间中,然后依据它们在该公共子空间内的相似度作为度量依据检索相似的样本。为了进一步减少大规模数据在进行跨模态检索时所需的存储空间和计算复杂度,基于哈希学习的跨模态检索算法在近年来得到了广泛的关注,本文主要探讨如何设计出更加有效的跨模态哈希算法。首先,本文提出了基于图卷积神经网络的半监督跨模态哈希算法(SGCH)。由于现有的跨模态哈希方法绝大多数是有监督的,需要人为对训练数据进行标注,因此当数据规模较大时人力资源的消耗也是巨大的。而半监督跨模态哈希方法通过利用少量有标注样本和大量无标注数据进行训练,能够取得接近于有监督方法的性能,因此具有更好的实用性。SGCH首先通过图建模(Graph Modeling)的方式将不同模态的数据构建为图结构,然后使用图卷积操作来挖掘模态内(IntraModality)的高阶相似度关系,与此同时将语义信息从有标注样本中传递到无标注数据中。随后,SGCH使用共享参数的孪生网络将图卷积过程中学习得到的多模态特征映射到汉明空间,得到最终用于检索的哈希编码。为了进一步消除多模态数据之间的语义鸿沟,SGCH还引入了对抗损失函数来拉近不同模态数据所在汉明空间的距离。在真实数据集NUS-WIDE-10K以及Wiki上的对比实验结果验证了所提出的基于图卷积网络的半监督跨模态哈希方法的有效性。其次,考虑到图的拓扑结构对于图卷积的效果具有至关重要的影响,因此本文进一步提出了基于自适应图卷积网络的半监督跨模态哈希算法(ASGCH)。该方法利用可扩展性更高的Graph Sage算法为不同模态的数据提取图卷积特征,并且根据提取到的图卷积特征对无标签样本的语义类别进行预测,然后选出可信度高的预测结果加入到有标签样本集中,并依据预测的标签对图模型进行更新。随着训练的不断进行,图的拓扑结构会越来越准确,也使得产生的哈希编码更加有效。通过在MIRFLICKR-25K,NUS-WIDE-10K以及Wiki数据集上的对比实验发现,本文提出的方法能够仅仅使用少量有标注数据训练的同时带来比主流跨模态哈希方法更好的检索效果。
其他文献
灯具是人们生活和工作中不可或缺的照明工具。随着生活水平的不断提高,人们对灯具提出了越来越高的要求,智能灯具应运而生。虽然目前人们可以在市场上找到许多具有手机APP远
太极拳是众多武术拳种中的一种,其行云流水、深绵不息的气势,松缓自然、空灵睿智的神韵,以及老少皆可练习的运动方式,深受大众喜爱。因其具有的技击攻防、健身、养生价值,而
集成调度是调度领域重要的分支之一。现有关于生产与运输集成调度的研究往往忽略库存因素的影响,而实际生产中,在产品加工完成没有立刻运输则需要存入仓库,因此库存也直接影
心电信号(Electrocardiogram,ECG)是心血管疾病临床诊断的重要依据之一。近年来,随着移动医疗和可穿戴技术的发展,低功耗、小体积、易采集的单导联ECG信号采集设备逐渐占领市
衍射光栅作为一种核心光学器件,在光谱分析、太阳能电池、石油化工和公共安全等领域都有重要应用。目前,传统的光栅制备工艺存在成本高、灵活度低和工艺繁琐等缺点。作为一项
目的:本研究旨在通过观察填精益髓法干预治疗肝肾亏虚型HBV相关性肝硬化(代偿期)患者第0、12、24周的FibroScan硬度值、肝功能以及血常规的变化,以及第0、24周中医症候评分、超声半定量评分计分的变化,并评估其临床总疗效的差别,探讨填精益髓法治疗HBV相关肝硬化的科学性,为中医药治疗HBV相关性肝硬化提供新思路。方法:本课题拟采用随机对照研究的研究方法,将2017年9月至2018年9月期间
随着科学技术的发展,自主式水下航行器(AUV)的相关技术研究受到了越来越多的关注。历年来,对水下航行器的研究与开发主要集中在材料、电力系统、导航与定位系统、水下通信技
人体姿态估计和行为识别是计算机视觉的热门研究领域,在老年人看护、医疗康复、动漫游戏制作、运动医学研究、安防监控、工厂人机协同等方面有重要的应用价值。人体骨架坐标
在以人工智能作为国家发展战略技术的驱动下,作为人工智能产业中自然语言处理领域的典型应用,闲聊式的人机对话一直是评价智能化进程的重要标准。本文面向开放领域的对话场景
近年来,得益于深度学习技术的发展,依存句法分析在精度和效率上均取得了很大的进步。目前依存句法分析面临的主要挑战是领域移植问题,即当测试文本和训练数据文本在风格、类