面向大规模图像检索的高维索引技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yujiankaka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像检索技术旨在从大规模图像库中快速、准确地检索相似图像,是近年来多媒体领域的研究热点,在网络信息监控、数字版权保护、搜索引擎等领域具有重要的应用价值。图像检索系统通常采用视觉特征提取技术,将图像的视觉内容描述为高维数字特征,进而将图像检索问题转化为高维数据的相似性查询问题。在大规模图像检索背景下,描述视觉特征的数据动辄上百维,数据规模达到百万级以上,因此高维索引技术成为影响图像检索性能的关键。  近年来,“维数灾难”问题导致传统的树型高维索引性能急剧下降;大规模数据背景下内存资源也成为瓶颈,而基于磁盘的查找又严重影响了检索效率。如何对大规模数据建立有效的高维索引,以满足查询性能和内存资源的要求,是解决目前大规模图像检索瓶颈问题的关键。另一方面,传统的高维索引建立方法与特征提取过程是相互独立的,没有充分挖掘特征本身潜在的数据共性,因此仅依赖索引技术对检索性能的提高是有限的。挖掘视觉特征的潜在信息并利用该信息建立高维索引,进而提高图像检索精度,是近两年新的研究热点和难点。  为实现大规模数据背景下高效率、高精度和低内存消耗的高维索引,本文在深入分析现有代表性工作优势和不足的基础上,对基于局部敏感哈希的均衡索引技术、基于二进制编码的压缩索引技术以及基于数据共性的鲁棒特征挖掘与索引技术等关键问题进行了深入研究,并取得了以下研究成果:  1.基于局部敏感哈希的均衡索引技术为了消除“维数灾难”,学者们提出了近似最近邻方法,牺牲少量精度换取了查询效率的大幅度提高。目前最成功的近似最近邻方法是局部敏感哈希(LSH),LSH的哈希函数基于随机投影实现了对数据空间的均匀划分。但是多媒体领域的数据往往是非均匀分布的,导致局部敏感哈希建立的索引失衡而影响查询性能。为此,本文提出了基于局部敏感哈希的均衡索引技术。首先提出了基于分布熵的哈希函数评价方法,由于分布熵值可以有效地评价索引的均衡程度,通过设计高分布熵值的哈希函数,建立均衡化的索引。其次,设计了基于数据分布先验信息的局部敏感哈希函数,该哈希函数与基于随机投影的哈希函数相比,具有更高的分布熵值,从而提高了查询精度。在公开数据集上的实验表明,本文方法比现有LSH方法在查询精度上相对提高了15.2%。  2.基于二进制编码的压缩索引技术在大规模数据背景下,存储和索引高维数据所需的空间资源成为瓶颈。压缩索引技术用压缩编码表示高维数据,减小了存储空间,是近年来的研究热点。二进制码具有占用内存少和匹配速度快的优点,是目前最常用的压缩编码方式。但压缩过程损失了大量信息,降低了查询精度。本文提出了融合互补二进制码的索引方法,通过融合基于百分位数的二进制码和基于量化的二进制码,降低单一二进制编码因信息损失引入的噪声,提高查询精度。实验表明本文方法比采用单一二进制编码的方法精度更高,验证了有效性。  现有二进制码索引方法通常顺序存储数据并采用线性查询,查询时大量不必要的匹配影响了效率。为提高查询效率,本文提出了基于局部敏感聚类的二进制码索引方法。首先根据局部敏感聚类方法对数据进行快速量化,然后基于密度自适应的二进制编码进行距离度量。该方法利用量化技术减小了查询范围,在保证查询精度的前提下,提升了查询效率。在INRIA数据集上的实验表明,与线性查询相比,本文方法查询效率相对提高了112.07%。  3.基于数据共性的鲁棒特征挖掘与索引技术在目前的图像检索系统中,视觉特征提取与高维索引是分开研究的。我们在研究中发现,视觉特征本身潜在的信息对提升高维索引性能具有重要的作用。因此,融合视觉特征提取与高维索引技术,挖掘视觉特征的数据共性并基于数据共性来建立索引,是提高图像检索性能的有效途径。  本文提出了一种基于数据共性的鲁棒特征挖掘与索引技术。首先根据特征的视觉相似性来挖掘具有数据共性的特征。然后在向量空间下,采用局部保持哈希方法对具有数据共性的特征进行离线学习,将其表示为相似的二进制码。通过融合特征检测、描述与压缩索引技术,本文方法可以有效应对复杂的图像变化,在满足大规模图像检索内存需求的同时保证了检索性能。  本文通过对上述关键问题的研究,提高了高维索引在应对高维数、大规模数据以及复杂图像内容变化时的性能,从而为大规模图像检索提供了基础,具有广阔的应用前景。
其他文献
在当前岩石力学与工程学科的科研与实践中,信息技术得到了广泛深入应用,为国家大型工程建设的实施奠定了基础。然而随着岩石工程领域信息化建设的深入,由于数据标准的缺乏和信息
安全性作为软件系统的重要属性,越来越受到人们的重视。经验表明,在软件开发周期中,问题发现得越早,解决问题的花销往往越小。因此,需要尽可能早地对安全性进行评估,发现潜在的安全
党和国家高度重视少数民族双语教育,少数民族双语教育对促进社会经济发展、保障社会稳定有着重要意义。当前双语教育信息化中教育资源的建设已经初具规模,但存在教学资源杂乱、
学位
湍流是流体运动中表现最为复杂的形式,其中均匀各向同性湍流是一种最简单并具有代表性的湍流,也是目前研究最多的一种情况。自20世纪70年代以来,直接数值模拟作为研究湍流机理的
随着2G、3G蜂窝网络的不断发展,移动通信业务逐渐在人们生活中发挥作用。由于基于位置服务的便利性,移动网络定位技术也成为了近来研究的热点。在现有定位算法的基础上,利用
人类视觉系统可以利用有限的视觉资源高效的处理大规模的输入信息,这得益于视觉系统的选择注意机制。选择注意机制使人类视觉系统可以快速而又精确的选择出视觉场景中的重要信
燃烧试验室作为国家消防电子产品质量监督检验中心的一个重要试验室,不仅在日常检验工作中发挥着重要的作用,还可以完成各种课题所需要的特殊燃烧试验.燃烧室数据采集处理系
Internet技术的产生和快速发展极大地影响了软件的构建方法与使用方式,软件形态逐渐从单机环境中的软件产品向网络环境下的软件服务扩展。这样的转变在扩展软件系统应用范围的
多处理器实时容错调度算法是重要的实时系统可靠性保障技术,算法效率对于实时系统的整体性能具有重要影响,调度算法因而成为实时系统的热点研究问题。本文在多处理器实时容错调