用于信息检索的监督哈希方法

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:habits
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
哈希方法是一种近似最近邻算法,哈希方法通过使用哈希函数将特征向量转换为二值的哈希码,以此提高最近邻搜索的效率并降低存储空间的占用。基于学习的哈希方法从训练数据中学习哈希函数,能够生成更紧凑的哈希码,且检索效率也有所提高。按照学习目标的不同,基于学习的哈希可以分为非监督哈希、监督哈希与半监督哈希。本文提出一种新的监督哈希算法-自然监督哈希(Natural Supervised Hashing,NSH)。自然监督哈希从标签向量出发,将标签向量看作语义上的理想二元码,希望目标哈希码和标签向量有相近的结构,将此想法直接写成内积逼近的优化问题后,使用双曲正切函数近似{-1,1}二值码以使得损失函数可导,进而可以使用梯度下降算法进行优化,此方法的训练时间较长且实验结果一般,为此,NSH使用保持内积的变换来隐式地达到逼近内积的目的,得到了最终的优化问题。对此问题,本文使用交替迭代的思路进行优化,在简单的放松后,迭代的每一步均有解析解,这使得NSH的训练耗时大大降低,且因为不需要在内存里保存Gram矩阵,NSH的扩展性很好。在四个多标签数据集上的实验表明,NSH在不同比特数及不同的查找方式下均能取得最好的结果。随着多模态数据的出现,跨模态最近邻搜索的需求随之出现,进而出现了多模态哈希算法。多模态样本的各模态有相应的特征,且不同的模态位于不同的特征空间之中,多模态哈希算法通过为各模态学习对应的哈希函数,将所有模态的特征转换到共同的海明空间之中,在此空间中,可以无视模态之间的差异,直接计算海明距离进行模态内及跨模态的最近邻搜索。本文将自然监督哈希的思想扩展到多模态数据,并提出一种新的监督多模态哈希算法-自然多模态哈希(Natural Multimodal Hashing,NMMH)。自然多模态哈希使用二步框架训练哈希函数:在学习哈希码时,NMMH使用NSH的思路,利用保持内积的变换来隐式地达到逼近内积的目的,得到哈希码后,对每个模态训练各自的哈希函数。此外,本文将ITQ(iterative quantization)扩展到多模态数据,使得哈希算法在将各模态的特征投影到共同空间后,可以通过旋转空间同时减小所有模态的量化损失。在实验环节,本文比较多个哈希算法在不同搜索场景下的性能,在使用统一码时,NMMH的结果明显优于其他算法。
其他文献
随着计算机技术以及互联网应用的高速发展,出现了越来越多的基于网络的分布式系统。在分布式网络系统中,各个主机间的不同应用都依赖于高标准的时间同步才能有效、协同的完成任务。网络时间同步技术在分布式系统中的广泛应用给系统带来了不可忽视的安全威胁,针对网络时间同步的攻击会造成服务中断以及系统崩溃等严重的后果。然而,现有的网络时间同步安全技术存在缺陷,无法满足安全可信的时间同步需求。因此,如何实现主机间安全
进给伺服系统作为数控机床的重要执行部件,其性能的好坏直接影响到数控机床整体性能,因此研究高性能进给伺服系统对数控机床产业发展有着重要的意义。影响进给伺服系统性能的因素很多,主要有间隙误差、随机信号干扰、摩擦力等因素,它们具有随机性和突变型等特点。这些随机因素都会给进给伺服系统带来偏差,致使进给伺服系统的控制问题变得十分复杂。自抗扰控制策略(Active Disturbance Rejection
近年来,经济的持续下行影响了世界贸易和货物运输,加之船舶的产能过剩,国际航运业面临着资金短缺、业务骤减的危机,部分航运企业不得不选择破产或者重整程序以摆脱经营困境。2016年,作为世界航运企业巨头的韩进海运公司在韩国进入破产重整程序,成为迄今为止全球最大的国际航运企业破产事件。因为航运企业的跨国性与资金密集性,所涉及的破产标的数额巨大,将会直接引发大规模的涉外诉讼,对全球经济贸易秩序与正常航运秩序
内蒙古欧布拉格铜(金)矿床位于狼山西段北麓,是内蒙古自治区有色地质勘查局511队在1965年发现的一个斑岩型矿床。通过野外观察、岩矿鉴定、流体包裹体研究并结合前人的研究手段,系统归纳了欧布拉格铜(金)矿床地质特征和流体包裹体的性质。研究表明:(1)矿区地层主要为石炭系上统地层及二叠系下统火山杂岩。矿体主要赋存在石英斑岩及其内外接触带上,呈不规则短透镜状、浸染状、团块状和脉状产出。(2)矿石构造以疏
配位聚合物因在检测、有机催化、光电转换等众多领域有着出色的表现和良好的应用前景,得到了众多研究者的重点关注。配体对于配合物的结构与性能调控有着重要影响,因此功能性配体的设计合成更是许多研究者最为关心的。因多吡啶基的共轭烯烃配体往往具有较好的介电与荧光性能,我们设计并合成了一种基于邻菲罗啉的双乙烯基吡啶配体 2,9-bis-(2-pyridine-3-yl-vinyl)-[1,10]phenanth
间隙波导是一种应用于微波毫米波领域的新型传输线。间隙波导以平行放置的理想电导体与人工磁导体形成的电磁带隙作为电磁屏蔽手段,与传统金属波导相比,不需要直接物理接触,有更高的加工便利性。微带间隙波导可通过平面PCB(Printed Circuit Board)工艺实现,较间隙波导有更高的电路设计灵活性,同时具有易集成、小型化、易加工等优势。早期无线通讯仅需处理单一频段信号,而近年来无线通讯朝着多协议、
近年来,无线通信技术已经进入到高速发展时期,随之而来的是电磁波频谱资源越来越稀缺。无线传感器网络可以对信号进行收集、处理和转发,并且具有强大的数据管理功能。无线传感器网络的特征是大规模化、组网方式多样、容易部署等,应用场景十分广阔。网络节点需要部署在传统网络无法使用的环境中时,就需要选择一个合适的组网方式去构建无线传感器网络。为了更好地利用、控制和管理网络中的数据信息,并使网络信息传输最优化,就需
本文研究椭圆型边值问题的全对角化的Legendre谱方法.主要研究了两部分内容:其一,研究了二阶非齐次Neumann边值问题的全对角化的Legendre谱方法;其二,研究了二阶非齐次Dirichlet边值问题的全对角化的Legendre谱方法.本文内容主要分为四章.第一章主要是谱方法简介和谱方法的研究现状,并简单介绍了与本文研究内容相关的研究成果.第二章介绍了与本文研究内容关系密切的Legendr
有机化学中环状体系化合物占有重要的地位,其在药物化学、农药学、材料学等方面都有重要的应用。通过过渡金属催化有机反应去构建环体系是有机化学研究的热门问题之一。同时,理论研究成环反应的机理对于开发新型的催化剂体系有着重要的指导意义。本论文采用密度泛函理论,分别研究了两种不同的催化剂体系([{Ir(oMe)(COD)}2]、Ni/A1-SPO配体)催化的成环反应机理。研究内容主要包括以下两个部分:1.利
随着通信技术的发展,卫星通信已经成为一种重要的通信方式。欧洲电信标准化研究所(European Telecommunications Standards Institute,ETSI)推出的卫星移动通信空中接口技术规范—GMR-1 3G标准(GMR,Geostationary earth orbit Mobile Radio interface)得到了众多新一代卫星通信系统的支持。在该通信系统中,