论文部分内容阅读
传统的以浮点矢量形式表示的图像特征,是基于内容的图像检索技术的基础。浮点矢量图像特征维数较高,且通常以欧氏距离作为矢量之间的相似度定义。虽然浮点矢量是一种精确的图像特征表述,但是存在一些缺点:存储开销大,距离计算复杂。当图像数量增长到一定数量后,基于浮点矢量形式表示的图像特征就不适合放置在内存中,欧氏距离的计算也将造成较大的时间开销。针对上述问题,本文提出一种基于特征签名的图像特征表示方法。该方法该系统利用主分量分析和矢量量化技术,对图像的浮点矢量特征降维后映射到本文提出的特征签名之中,并用汉明距离作为特征签名之间的距离测度。对特征签名和浮点矢量在存储开销和匹配速度这两方面进行了实验后,实验数据表明,基于特征签名的图像特征表示方式相对浮点矢量能优化存储开销,提升匹配特征速度。利用本文提出的基于特征签名的图像特征表示方法,本文进一步提出了基于多特征签名的图像检索系统,和基于多特征签名的重复图像检测方法。基于多特征签名的图像检索系统对每幅图像提取多种特征后,得到多种浮点矢量,经由主成分分析和矢量量化,最终映射并编码得到多特征签名。图像之间的距离被定义为汉明距离。实验结果表明,基于多特征签名的图像检索系统相对于基于浮点矢量的图像检索系统,能很好地实现图像的特征存储和签名匹配,在准确率保持不变的情况下能返回更多的检索结果,且具有较好的特征可扩展性。重复图像检测是互联网图片数量的爆炸式增长所带来的一个新课题,其目的是为了检测同一个图像检索页面上的内容相同的图像,并用一张图像代替,以优化用户的检索体验。作为特征签名在重复图像检测方面的应用,基于多特征签名的重复图像检测方法改进了矢量量化过程中的编码映射方式。实验表明改进后的编码方式具有更高的重复图像检测召回率。另外,多特征签名相对单特征签名,能进一步提高重复图像检测的召回率。