面向高维数据的k近邻查询算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hustyhw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机视觉、机器学习、多媒体数据挖掘等诸多领域,k近邻查询都是一个常见但又非常重要的问题。由于k近邻查询的执行效率往往会在很大程度上影响整个算法的执行效率,因此一个更高效的k近邻查询算法将使许多应用从中大大获益。目前,在低维空间中已经有很多高效的查询算法,但当处理高维数据时,维度灾难通常会导致这些算法的执行效率大大下降。为应对维度灾难带来的困境,很多算法提出了近似的查询方案,虽然这些算法可以满足大部分应用的需求,但仍有一些应用需要算法返回精确的k近邻查询结果。基于上述原因,本文提出了应用于海量高维数据的较高效的精确k近邻查询算法。本文算法主要分为数据预处理和k近邻查询两个阶段。在预处理阶段,算法通过正交变换和维度约减将向量间距离信息集中在少数几个维度之中,这使得在查询阶段算法只需处理少量维度即可完成大部分工作,从而有效地减少了在高维空间中查询带来的时间开销。在查询阶段,本文首先设计了一个近似的近邻查询算法,该算法独立运行时可以快速地得到较高质量的近邻查询结果,对于精确k近邻查询,则利用它返回一个阈值。接下来,算法不断加载数据的部分维度并利用近似的近邻查询算法返回的阈值对不可能成为k近邻的数据进行过滤。最后,算法只需从磁盘中加载少量数据即可完成精确的k近邻查询。实验表明,本文算法只通过小部分的维度就可以对数据实现有效的过滤并最终较高效地返回精确的k近邻查询结果。
其他文献
<正>农村物流是相对于城市物流的一个概念,它不等同于农产品物流和农业物流,三者既有许多共同之处,又存在一些差别:农村物流是一个区域物流概念,而农产品物流是以农产品为对
铸造生产中的造型、破碎、筛砂、落砂以及铸件清理等各道工序都产生振动及噪声,这些对人体的身心健康和建筑物有很大的危害。在我国的噪声标准中,对铸造设备噪声要求限制在90
全国环保科技情报网新年座谈会于1985年1月4日至6日在北京召开.出席会议的单位有专业情报组、地区网、系统网等15个单位31名代表.
由国家科委、国家经委、国防科工委共同组织首届全国技术成果交易会,将于1985年5月中旬至6月中旬在北京举行.此次交易会是为了贯彻国务院常务会议关于实行商品
我国在监测空气中的粉尘状况,过去仅有测出全尘浓度的仪器,尚无测定分散度的仪器设备,无法正确评价粉尘对人体的严重影响.针对上述问题,北京劳保研究所和承德仪表厂共同查阅
<正>推进教育均衡发展,促进教育公平是我国今后教育改革与发展的重要战略目标。由于当地经济社会发展的不平衡,直接导致地区之间、城乡之间教育发展的不均衡。积极推进《小学
自《哈利·波特与魔法石》在英国首次发行以来,《哈利·波特》系列一直占据英、美等国畅销书排行榜之首。在文学越来越失去轰动效应的今天,《哈利·波特》创造了世界出版史上
目的了解昆明市东川区艾滋病快速检测点检测工作的规范性及质量管理情况,促进全区艾滋病快速检测点的能力建设,提高检测水平和生物安全意识,及时有效地发现HIV感染者,确保检
为消除烟尘对大气的污染,改善环境,保护人民身体健康,节约能源,促进经济发展,武汉市环保局制订了《武汉市消烟除尘管理暂行规定(讨论稿)》.运用法制手段对大气污染造成的危害
以一座三跨矮塔斜拉桥为工程依托,利用Midas/FEA有限元实体分析软件对该桥0号块进行结构细部分析研究,采用Midas/Civil建立整体分析模型并提取相应内力施加于局部分析模型上,