基于自适应聚类距离边界的高维检索算法研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户：lingyumhg

【摘要】

：

随着高维数据库的快速发展,高维数据库容量越来越大,为加快查询效率,研究者已提出了多种对高维数据建立索引结构的方法,但是这些索引结构在如下两个方面存在着缺陷：一方面,这

【作者】

：

郭娟

【机构】

：

浙江工业大学

【出处】

：

浙江工业大学

【发表日期】

：

2012年期

【关键词】

：

高维索引结构自适应聚类距离边界 KNN查询近似检索数据降维

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着高维数据库的快速发展,高维数据库容量越来越大,为加快查询效率,研究者已提出了多种对高维数据建立索引结构的方法,但是这些索引结构在如下两个方面存在着缺陷：一方面,这些索引结构大都是基于一个不合理的假设,即认为高维数据集中的数据都是均匀分布的,而且各个维之间相互独立,不存在任何关联性；另一方面,大部分的树形索引结构都有随着维数升高而查询性能下降的缺陷,已有研究表明,在维数大于10的情况下,会出现“维数灾难”现象。除了树形索引结构,向量近似文件(VA-file及其改进等)有效地克服了“维数灾难”现象,但其查询性能的加速被限制在很小的范围内,仍难以满足实际的需要,而且它也是基于数据集中数据均匀分布,各维之间相互独立的不合理的假设。自适应聚类距离边界面的高维索引方法基于高维空间中的数据非均匀分布,且每个维之间还存在着一定的关联性的假设,这种假设符合真实数据集中数据的分布,因此它相比基于非真实数据集的高维索引结构能更好的解决实际问题。自适应聚类距离边界面的高维索引结构采用生成Voronoi聚类的索引方法,这种索引方法放宽了聚类距离边界面的规则性,放松的规则性更符合数据的原始分布,从而使得边界面更加紧密。在基于此结构的查询中,可大大提高查询效率。2011年有研究者将这种索引结构与精确K近邻查询算法相结合,生成了适用于高维的基于自适应聚类距离边界的KNN查询算法。这种查询算法利用查询向量到聚类距离边界的下界值过滤掉不相关聚类的调入,很好的降低了I/O开销。同时,在文章中研究者已通过相关实验证实了它相比基于顺序扫描的索引如VA-File, iDistance, LDC索引结构在降低I/O次数上具有更好的优势。因此基于此结构的检索算法具有更好的实用价值。但是,在基于此结构的KNN查询过程中仍需要计算查询向量到聚类中所有对象的距离,这在维数很高,数据量很大的情况下会大大降低查询性能,因此基于此结构的KNN查询算法仍有待改进。针对目前自适应聚类距离边界的高维索引结构及相关查询算法的现状,本文在该领域进行了较深入的研究,主要工作和成果如下：首先对相关高维检索技术进行了综述,研究了自适应聚类距离边界的高维索引结构以及基于此结构的KNN查询算法,并分析了基于此结构的查询算法的不足；其次针对基于自适应聚类距离边界的高维索引的KNN查询算法的不足,提出了改进的IV-KNN算法。通过在原来存储结构上增加一定的开销和预处理,将三角不等式的思想应用到基于自适应聚类距离边界的高维索引结构的KNN查询算法中,在原来降低I/O复杂度的基础上,进一步降低了CPU代价,提高了查询性能。并通过在真实数据集上进行的实验,验证了这种改进的算法比原来的算法在查询性能上有了较大的提高；最后从近似检索的角度出发,综合目前的近似检索方法,提出采用LLE和PCA相结合的方法对数据集进行降维处理,然后再建立基于自适应聚类距离边界的高维索引结构来实现近似检索,提出了降维TV-KNN算法(RDIV-KNN),并基于真实数据集对算法的有效性和查询效率进行了实验,实验结果表明RDIV-KNN查询算法在查询精度和性能上均有提高。

其他文献

基于不完全数据的软件可靠性预测模型研究

随着计算机和软件产品应用的日益广泛，我们生活的各个方面对软件产品的依赖也与日俱增。目前软件产品已经应用于一些对软件质量要求更高的重要领域，如民航订票、金融管理和医疗

学位

不完全数据软件可靠性预测模型PSOGA算法

基于DTN交互式卫星远程教育系统的通信安全机制研究

针对我国现阶段的综合国情,积极开展卫星远程教育有助于推动我国教育事业的发展、缩短城乡间的教育差距。基于DTN(Delay Tolemt Network,延迟容忍网络)的交互式卫星远程教育

学位

DTN交互式卫星远程教育系统条件接收模块通信安全机制PKCS#11加密标准

服务器推送技术在光缆实时监控系统中的研究应用

近年来，全球通信事业得到了突飞猛进的发展，光纤通信凭借着通信容量大、保密性好、传输损耗低等优点，成为现代通信领域的一个重要支柱。然而随着光缆网络的规模日益扩大，其复杂性

学位

服务器推送Pushlet光缆监控实时

异构环境下特征提取算法的并行化研究

在人类借助“五感”所获得的信息中,大约有80%是来自视觉。对人类而言,视觉信息最容易了解,也最能够信赖。计算机视觉的目的就是利用计算的手段来处理人类的视觉信息和实现对

学位

特征提取并行处理异构环境三维重建Harris算子DoG高斯差分

异构信息网络中的离群点检测研究

从海量数据中发现潜藏着的、有价值的知识,是一项巨大的挑战。在一些情况下,知道什么样的数据显著区别于数据集中的其它数据,也就是发现离群数据,显得非常重要。现有的离群点

学位

异构信息网络关联关系离群离群点检测

基于蓝牙与GSM/GPRS的卫星远程教育系统回传通信方法研究

我国幅员辽阔,地区经济发展差异大,教育资源分布不均衡。因此,我国对远程教育的发展和应用非常关注。卫星远程教育发挥了广播优势,成为偏远、经济欠发达地区教育信息化的重要

学位

卫星远程教育回传蓝牙GSM/GPRS

无线传感器网络在复杂环境下的拓扑控制

在无线传感器网络的分析和设计中，如何高效地利用传感器有限的能源是最为关键的课题之一。通过适当减少各个传感器的传输功率，拓扑控制算法在保证网络连通性的前提下，能够减少能

学位

无线传感器网络复杂环境拓扑控制移动接收器启发式算法能量消耗

基于RFID的环境自适应室内定位方法研究

位置感知技术一直以来都是广大学者所关注的重点，特别是随着物联网(IOT，Internetof Things)及基于位置服务(LBS，Location Based Service)技术的迅速发展，越来越多的用户将位置感

学位

RFID技术室内定位方法工作原理位置信息计算复杂度

轻量级局部网络编码感知策略的研究

由于无线网络的广播特性,网络编码技术在无线网络上得到了深入的研究。局部网络编码机制中数据包的编码和解码操作都是在局部范围内实现,目前局部网络编码的编码方式多采用CO

学位

局部网络编码轻量级编码感知邻居拓扑

二维模糊语言信息的研究

智能信息处理是计算机科学与技术领域的重要研究内容之一，而在智能信息处理过程中，人们会遇到许多的不确定性信息。作为一种典型的不确定性信息，二维模糊语言信息不仅可以刻画评

学位

二维模糊语言信息处理格蕴涵代数计算模型

基于自适应聚类距离边界的高维检索算法研究

其他学术论文