基于矩阵分解的离散哈希方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:xl122700059
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年迎来信息爆炸的时代,互联网、电子商务、云计算及移动社交媒体等信息技术的迅速发展使得数据的数量和规模急剧增加,多类型大规模的数据对数据的处理速度及存储能力方面都有更高的需求,不仅要在可接受时间内处理大规模数据,同时数据的存储容量也要限制在可承受范围内,这对于当前大规模多模态数据的检索仍然是一个挑战。为了解决高维大规模数据的近似最近邻检索问题,基于哈希的近似最近邻检索方法应运而生,哈希方法将原始数据用长度固定的二值哈希码来表示,并使得原始特征空间中的语义关系等相似性信息在海明空间中依旧保持。大多数传统的哈希方法主要针对单模态数据,解决的是单个模态内的数据检索问题,而随着信息技术的快速发展导致数据的爆炸性增长,多模态数据越来越多,而对于多个模态之间的数据检索需求场景也日益增多,如以文搜图等,因此跨模态哈希检索成为一种行之有效的解决方案。目前已经出现了多种基于机器学习的跨模态哈希方法,并取得了不错的检索效果,但是仍有几个限制其性能的问题存在:1)由于二值离散优化问题较难解决,一些方法对离散条件进行松弛,首先求出哈希码的实值表示,之后对得到的实值表示进行二值化得到最终的哈希码,然而这种松弛优化方式会产生较大的量化误差,使得最终哈希码的检索效果下降;2)当前也有一些方法直接进行离散优化,但都以牺牲训练时间为代价,导致优化所需时间大大增加;3)在监督信息的选择上,有的方法选择使用n × n的相似性矩阵进行相似性保持,但这会导致其训练的时间复杂度从线性O(n)上升到O(n2),进而增加了其扩展到大规模数据集的难度。综合考虑上述问题之后,本文提出一种有监督哈希方法——基于矩阵分解的可扩展离散哈希,简称为SCRATCH。该方法结合矩阵分解以及标签嵌入来解决相似性保持和可扩展性问题,引入随机正交旋转矩阵来保持优化过程中哈希码的离散特性,从而可快速地完成模型训练并提升检索精度。本文主要贡献总结如下:·提出一种全新的基于矩阵分解的有监督跨模态哈希方法,通过借助协同矩阵分解(CMF)和标签语义嵌入,SCRATCH可充分利用现有的监督语义信息来找到一个公共子空间,使得形态各异的数据之间的隐含语义关联能够被有效地捕捉到,从而尽可能的保持模态间和模态内的语义相似性。· SCRATCH使用标签矩阵而非相似性矩阵,因此其训练的时空复杂度始终与数据集规模保持为线性关系,可方便的扩展到大规模多模态数据集上。·为了避免使用松弛技术解决离散优化问题造成的巨大量化误差,SCRATCH引入随机正交旋转矩阵使得训练过程中始终保持哈希码的离散特性,并结合迭代优化的策略,从而最小化训练过程中的量化误差,而且由于使用的是矩阵优化技术,矩阵的解均可通过求导得出其闭式解,因此避免了其他离散优化技术以增加训练时间为代价的问题。·通过在三个多模态数据集上进行对比实验,包括检索性能、训练时间以及使用深度网络提取图像模态特征结合SCRATCH的损失函数来与当前先进的深度跨模态哈希方法进行性能对比,可以看到本文方法在各个指标上达到当前卓越的性能的同时,训练时间大大降低,从而可以方便的扩展到大规模数据集上,具有极高的有效性和实用性。
其他文献
单细胞测序技术的发展产生了大量有价值的数据,其中最典型的就是单细胞RNA测序(single-cell RNA-sequencing,scRNA-seq)数据,对这些数据的分析可以识别未知的细胞亚型、研究
论文研究的主要内容是,在一个以等级制为体系特征的地区中,地区大国确定其地区战略的逻辑以及域外大国对地区秩序的塑造作用。论文以地区大国印度在地区和国际两个层次上的身
出露于内蒙古鄂伦春自治旗托河林场东南部的毕利亚山花岗岩,主要矿物成分为石英和碱性长石,为碱长花岗岩;微量元素低Sr低Yb,属于“低Sr低Yb型”花岗岩;其锆石具有明显岩浆成
译者跨文化能力是翻译教育的重要培养目标。那么,译者跨文化能力对学生的翻译行为会产生什么样的影响?本研究选取河北农业大学45名选修高级笔译实践的英语专业二年级学生为被
八都群是华夏地块最古老变质基地,经历过多期变质改造,其中以印支期变质改造最为明显。浙西南松阳地区的八都群中分布有一套基性变质岩:石榴辉石岩与石榴角闪岩,其变质作用演
目的:1.研究膜锚定补体调节蛋白(Membrane-bound complement regulatory proteins,mCRPs)CD46,CD55和CD59在口腔扁平苔藓(Oral lichen planus,OLP)局部病变组织中的表达,探索
目的:本课题旨在比较光滑钛表面(smooth titanium,ST)、微米级形貌钛表面(micro titanium,MT)、纳米级形貌钛表面(nano titanium,NT)对MC3T3-E1形态、粘附、增殖、成骨分化能
本研究调查了从巴基斯坦返回阿富汗喀布尔的阿富汗二代难民的跨文化适应过程,聚焦当前阿富汗背景下返回者回到原籍国第一年所面对的文化适应问题。此外,本研究还探讨了媒体在
结肠癌(Colon cancer,CRC)是发生于结肠部位的消化道恶性肿瘤,发病率居胃肠道肿瘤的第三位。近年来,结肠癌的发病率与病死率在我国呈上升的趋势,已达到并超过了西方发达国家
吉林南部地区位于华北板块东北缘中朝准地台区,新元古界地层发育连续、分布广泛。近年来针对本地区新元古代沉积事件的研究取得很多认识,但是缺乏对新元古界沉积环境演化的研