论文部分内容阅读
随着互联网的快速发展,社交媒体、视频网络等多媒体数据成指数级增长。如何快速有效地获取用户所需要的多媒体信息,已经成为迫切需要解决的问题之一。在海量、高维的多媒体数据面前,传统的检索方式已经难以满足人们的需求。因此,对于大规模高维数据检索算法的研究就显得十分重要,也成为近年来国内外的研究热点。针对这一问题,研究人员开始采用哈希的算法将高维空间数据转换成二进制的哈希码,通过哈希码之间的汉明距离来表征原始数据的相似程度。采用哈希算法的优势主要有以下两个方面:(1)哈希编码是由二进制表示,可以大大降低原始海量数据的存储量;(2)计算机可以采用位运算的方式,快速计算哈希码之间的汉明距离,以实现对海量数据的高效检索。本文提出了一种基于随机游走的无监督图哈希学习算法,用于实现大规模数据的最近邻搜索。本文借鉴Markov图聚类算法,构建的Markov图模型不仅描述了数据之间的直接关系,同时也描述了数据各自邻域对其的影响;通过在Markov图上的随机游走,并指数加权结合各步转移矩阵,使得相似数据更加紧密,不相似数据更加疏远,从而获得较为稳态的数据关系网络。最后根据谱图划分理论,采用Laplacian特征分解算法实现在低维流行空间保持原始高维Markov图的网络结构。由于Markov图模型的构建与分解,存在计算复杂度较高、训练成本代价大的缺点。本文借鉴基于Landmark的快速谱聚类算法的思想精髓,进一步地提出了一种改进的快速随机游走图哈希算法。通过理论分析和实验验证,在不降低检索精度的基础上,大大降低哈希学习算法的训练时间复杂度。本文在四个国际公认的大规模图像数据集上,与主流的无监督哈希学习算法进行对比。实验结果表明,本文提出的哈希学习算法普遍优于主流的哈希算法。具备良好的检索性能。