论文部分内容阅读
伴随着互联网的飞速发展,互联网的内容从文字逐渐向着图片视频等多媒体形式方向发展,特别是近年来移动互联网的普及使图片应用的限制逐渐减弱,有关图像的应用变得火热起来。在诸多图像应用中,图像检索作为基础,在实际应用中扮演着重要角色。尤其在当前互联网图片数量呈指数增长的情况下,快速检索到所需图像很有意义、也很有挑战性。针对这一挑战,传统的图像最近邻检索算法无法同时满足快速性和高精度的要求。为此,本文结合分段量化思想,加入文本检索中的倒排索引算法,提出了一种改进的最近邻检索算法,实现高精度、快速图像检索,为图像检索问题提供了新的解决方案,具体描述如下: 本文将倒排索引策略与量化思想结合,充分利用倒排索引结构对数据的分类特性,提高了图像检索的速度。在量化方面,从分段量化方法入手,通过分析向量量化过程中产生的误差、待检索向量以及量化后向量三者之间的关系,给出了一种真实距离的估计方法,在其基础上提出一种阈值限制策略,以达到进一步减少遍历量、提高检索速度的目的。具体来讲,本文算法首先根据三角不等式进行真实距离最大值阈值计算,通过迭代使阈值下降、直到比较接近真实距离。接着应用该阈值来进行遍历范围限制,即对于倒排索引结构来说,不再遍历固定数量的挂载点,而是先计算每个挂载点与待检索向量的距离,当阈值与挂载点的距离比较大时,认为此挂载点与待检索向量的距离较远而终止遍历;此种方式与之前的遍历方式相比,能更好的适应数据集的变化从而很大程度上减少了遍历量、提高了检索速度,同时保持了较高的的检索准确率。 本文提出的改进最近邻检索算法被应用来解决大规模数据集下的相似图像检索问题。在相似图像检索问题中,对图像表达和相似图像检索过程进行了优化:首先,针对基于神经网络的图像表达问题,在现有网络的基础上加入了微调操作;在特征提取阶段,利用微调后的网络提取特征来作为图像特征,从而保证在图像表达效果上优于传统的图像特征。在相似图像检索系统流程上,根据检索结果加入多特征重排序策略,即对于初次检索结果再利用颜色特征进行重排序,此策略解决了一次检索所出现的颜色差异较大的缺陷,进一步提升了检索效果。