支持最近邻查找的高维空间索引

来源 :复旦大学 | 被引量 : 0次 | 上传用户:liufengsheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在图像、生物信息、医学成像、时间序列等领域需要对大数据集进行相似性查询。通过特征转换将数据对象特征映射为高维向量空间的特征向量,把相似性查询转换为向量空间的最近邻查询,即给定查询数据q及整数k,从数据库中找出距离q最近的k个数据。为了提高查询效率,研究者提出各种索引结构管理特征向量。这些索引结构在维数升高时性能会急剧下降,即“维灾”。针对高维数据索引结构的现状,我们在该领域进行了深入研究,取得了一定的成果。为了提高索引的检索效率,增强对高维的承受力,提出了多个具有良好性能的索引结构,并提供了利用这些高维索引支持图像相关反馈的方法。主要内容如下:首先,为了对聚类与查询性能之间的关系进行理论分析。提出一种新的基于聚类分解的高维度量空间B+-tree索引,它通过聚类分解对数据进行更细致的划分来减少查询的数据访问。对聚类与查询代价的关系进行了讨论,通过查询代价模型给出了最小查询代价条件下的聚类分解数目等的理论计算公式。实验显示提出的索引方法明显优于iDistance等度量空间索引,最优聚类分解数的估计接近实际最优查询时所需的聚类参数。然后,为了进一步改进高维数据库查询的效率。提出一种基于查询采样进行数据分布估计的方法,并在此基础上提出了一种支持最近邻查询的混合索引,即针对多媒体数据分布的不均匀性,有选择的使用树状索引和顺序扫描技术,建立统一的索引结构。建立混合索引的具体步骤为:首先通过聚类分解分割数据并建立树状索引;然后使用查询采样算法,对数据实际分布进行估计;最后根据数据分布的特性,把稀疏数据从树状索引中剪裁出来进行基于顺序扫描策略的索引,而分布比较密集的数据仍然保留在树状索引中。在五个真实的图像数据集上进行了充分的实验,结果显示提出的索引方法明显优于iDistance等度量空间索引,在维数达到三百多维时查询效率仍高于顺序扫描。实验结果还证明提出的查询采样算法在采样数据量仅为N1/2(N为数据量)的情况下就可以获得的满足索引需要的分布估计结果。最后,为了使得提出的索引结构能够在图像检索中应用,提出了利用高维索引支持用户相关反馈的方法。
其他文献
随着网络技术的发展和网上电子商务应用的增加,信息安全问题日益凸现,当今信息安全技术主要包括密码技术、身份认证、访问控制、入侵检测、风险分析与评估等诸多方面。访问控
资源分配是人类活动中一类常见而重要的决策活动。例如,工程计划制订就是这样的一类决策活动,它有两个主要特点:一是工程计划由众多专家、技术人员共同决策;二是必须考虑在资
临床资料患者,男,57岁,职业:公务员,因在单位“间断干咳10余天,突发晕倒数分钟”于2020年1月26日就诊我院急诊,10余天可疑受凉后出现少许干咳,偶有自觉畏寒(体温未测)及胸闷,
本刊讯3月25日,以“绿色建材”为主题的第十三届中国国际建材博览会在北京展览馆拉开帷幕。中国建筑材料联合会副会长、中国水泥协会会长雷前治,中国建筑材料联合会常务副会长
生产快速增长运行质量提高2007年,水泥行业运行和发展总体向好。一是水泥产量高速增长。到10月底,全国水泥总产量11.05亿吨,同比增长14.2%,预计全年水泥产量超过13.5亿吨,到年底,新型干
Web服务建立在完全开放的标准之上,被认为是基于Intemet的组件开发模型,通过提供一种平台无关、语言无关、数据格式无关的Web访问接口,形成了一种在网络环境下,支持不同的系统平
目的探讨静脉注射丙种球蛋白治疗肺炎支原体肺炎(MPP)的临床疗效。方法采用简单随机化方法将128例MPP患儿分为观察组68例和对照组60例,两组患儿均给予红霉素静滴及对症治疗,疗
2006年度“中国企业十大新闻”暨“最具影响力企业”、“最受关注企业家”和“最具成长企业”推选括动结果1月25日在京揭晓。此次活动由中国企业联合会和中国企、止家协会发
目的:探讨消化性疾病患者24 h心率变异性(HRV)的改变和意义。方法:将161例消化疾病患者分为消化性溃疡组(PU组)和功能性消化不良组(FD组),另选75例健康体检者为对照组,对消化性疾病患
发电站是我国电力系统中主要的能源产业,这关系到电力网络覆盖区域的人民生活,社会生产发展具有非常重要的作用和地位。电力系统是否能正常运行影响着社会秩序、伴随着我国国