论文部分内容阅读
近年来,随着多媒体技术和计算机网络的飞速发展,全世界的数字图像数量正以惊人的速度增长。对于大规模图像数据库来说,线性扫描已经满足不了用户的需求。图像数据库作为高维数据库的重要组成部分,其检索离不开高维索引技术的支持,因此,其近年来备受研究人员的关注。除了多媒体检索之外,数据挖掘、决策支持等需要在大数据集里进行相似度检索的应用都需要有效的索引结构来加速查询过程。
传统的多数索引机制,如B-Tree、B+-Tree等索引结构都是对低维的数据来进行索引,当处理的数据维数超过10时,其性能急剧下降,甚至不如顺序扫描。为此,人们提出了许多索引结构,它们利用相应的技术和数据结构来组织特征向量并管理搜索过程,从而加速查询。
本文从两个角度介绍了几种重要的高维索引算法。一方面从基于数据空间划分的角度比较全面的介绍了VA-File算法及其一些改进算法,如:VAR-Tree,VA-Trie及FAC-File算法。另一方面从基于数据分布的角度介绍了常用的索引结构,如R-Tree,X-Tree,SS-Tree及SR-Tree等。在此基础上,提出了一种新的空间索引算法-一VAT。其采用VA-File中的向量近似思想,并借助索引结构来组织和管理压缩后的近似矢量。通过在UCI数据集上的仿真实验证明了VAT的性能优于VA-Trie、VA-File、R-tree,顺序扫描。