基于分区基数估计的高维近似最近邻搜索算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:liuyong19840815
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近邻搜索是向量检索的核心问题,在图片搜索、模式匹配等领域有着广泛的应用。最近邻搜索的目的是从一个向量数据集中找出与查询向量最相似的向量。传统的精确搜索算法在数据维度较低且数据规模不大的情况下,能够取得很好的效果。然而,随着数据维度与规模的增大,传统的精确搜索方法受限于“维数灾难”,不适用于高维向量的检索。因此,近似最近邻搜索问题成为了一个新的研究热点,它通过牺牲一定的精度,更快地从海量向量数据中查找与查询向量最相似的向量。倒排乘积量化(Inverted File Product Quantization,IVFPQ)是一种在工业界应用广泛的近似最近邻搜索算法,它通过乘积量化来压缩向量并加快距离计算的速度,采用倒排索引来避免穷举搜索以提升查询效率。然而,IVFPQ算法对所有的查询向量设置固定的搜索分区数进行搜索,没有考虑到查询向量之间的差异,造成了多余的分区搜索。针对IVFPQ近似最近邻搜索算法的不足,提出了一种基于分区基数估计的高维近似最近邻搜索算法,以提升近似最近邻搜索的查询效率。首先,结合查询向量、查询目标数和查询到各分区中心的距离这三类特征,设计了一个基于神经网络模型来估计最优搜索分区基数,从而降低多余的分区搜索开销。然后,在分区搜索阶段,利用当前第k个搜索结果的距离值作为阈值,采用三角不等式剪枝掉无需访问的向量,减少距离计算的次数。最后,在计算距离时使用了提前终止剪枝优化策略,降低了距离计算的成本。在SIFT、GIST和Text-to-Image三个公开的大规模高维向量数据集上进行了广泛的实验。实验结果表明,提出的基于分区基数估计的近似最近邻搜索算法相比IVFPQ算法在相同的召回率下显著降低了平均搜索的分区数量,提升了查询效率。具体地,提出的方法相比IVFPQ算法最多减少了25%的搜索分区数量,平均查询时间降低了约40%。
其他文献
随着城市化进程的不断推进,各大城市修建了大量高架桥缓解道路交通拥堵,同时也增加了更多不透水面积,加大了街道排水压力。本文聚焦于桥阴绿地雨水管理设施收集桥面雨水径流,实现桥面雨水径流的资源化利用,净化雨水径流污染物,节约市政道路绿化养护用水,减轻城市地下排水管道压力。调研武汉市36座桥阴绿地现状,整理分析桥阴绿地布置形式、建筑类型、景观特征、生态特征,提出武汉市常见的7种桥阴绿地空间类型,研究不同类
学位
随着智能手机、可穿戴式设备以及智能汽车等技术的飞速发展,用户的位置相关数据也变得越来越便于收集。与此同时,移动数据的急剧增加也带来了更多用户隐私泄露的风险。为保护用户轨迹隐私,基于差分隐私技术的轨迹合成保护方法受到了广泛关注,虽然该方法能在相当程度上保护用户的隐私信息,但仍然保留了轨迹的部分特征。对基于差分隐私的轨迹合成方法保护后的轨迹数据进行成员推理攻击的研究,对于发掘轨迹合成保护方法存在的不足
学位
随着城市交通的迅速发展,为有效地减轻城市地面交通系统所面临的巨大压力,地铁隧道等长大地下结构物在我国各大城市逐渐兴建。同时,长大隧道在地震作用下会出现多种形式的破坏,规范规定隧道在建设初期应进行合理的抗震设计和安全性评估,目前在隧道纵向的易损性分析中地震动大多采用一致输入的方式,但对于长大线状结构物而言,地震动的空间变异特性也会对结构的地震响应产生显着的影响,因此一致输入的方式难以满足我国长大隧道
学位
旅游驱动是推进镇村发展并形成“产、村、人、文”一体化结构的有效手段,也是对乡村振兴国家战略的有力呼应。在山水资源优渥、旅游市场庞大的武汉,如何在凸显地方山水与文脉特色的同时,塑造高水平享受、高体验价值的农旅小镇,是关系到高质量发展与可持续发展的重要议题。本研究聚焦农旅小镇环境艺术建设主题,以农旅小镇外部环境的现状问题与品质评价为切入点,尝试运用科学与审美理论结合、定性与定量结合的方法,构建针对已建
学位
沥青是一种复杂的多相态粘弹性材料,其宏观性能易受温度、老化、水分侵入影响。本文对无水硫酸钙晶须(Anhydrous Calcium Sulfate Whisker,ACSW)进行无机-有机复合表面改性处理,将其用于沥青改性。从微观角度出发,通过原子力显微镜试验和分子动力学模拟相结合,对表面改性无水硫酸钙晶须(Modified Anhydrous Calcium Sulfate Whisker,MA
学位
随着近些年来移动互联网的进一步发展,安卓操作系统已经成为最受人们欢迎的移动操作系统,而安卓操作系统的核心便是其中众多的系统服务。一旦系统服务发生问题,将会影响到数以万计的硬件设备,相关的研究显示,这些系统服务之间的信息流存在着潜在的攻击面,为了确保安卓系统服务的安全性,研究并设计出一套对安卓系统服务全面的模糊测试方案是很有必要的。本文设计并实现了Android系统服务模糊测试工具SFuzzing,
学位
桥梁快速建造是当下研究的热点,目前可以通过灌浆套筒连接、预应力连接和承插式连接等方式实现墩柱和承台的快速建造,本文在对普通承插式连接进行受力分析的基础上,借鉴钢管混凝土柱和组合梁等的构造形式,设计了一种改进承插式连接,并通过缩尺试验和数值模拟对现浇、普通承插式连接和改进承插式连接的受力性能进行了分析。拟静力试验结果显示,现浇、普通承插式连接和改进承插式连接试件的破坏都发生在桥墩和承台连接处,其中,
学位
带索夹多束股高强钢丝索结构在实际工程中有着广泛的应用,以悬索桥中的张拉式缆索结构最为典型。在实际施工中,高强钢丝索结构不仅具有柔性,还具有与其张力相关的弯曲刚度。这种具有耦合特征的刚-柔相互作用以及索夹的长度效应,使该类索结构具有了高度几何非线性,即刚-柔耦合多机制特性(Flexible-Rigid Coupling Multi-mechanism,FRCM),忽略此特性会给设计分析带来一定偏差。
学位
为了充分发挥高铁枢纽对周边城市区域发展的带动作用,“站城融合”已成为新一代高铁枢纽的发展目标。在此理念下,高铁枢纽站区内的公共交通设施除满足铁路客流的集散需求外,也应加强与城市服务设施的步行衔接。本文将高铁枢纽步行出入口和站区内的公共交通站点定义为公共交通节点,并对其步行可达性进行建模分析,以期对节点的布局优化提供理论支持,缓解其与城市功能设施衔接不畅的现象。本文的主要工作及成果有以下几个部分:首
学位
局部破坏是连续配筋混凝土路面中常见的病害类型,由横向裂缝、水平裂缝和纵向裂缝共同造成。为了提高路面耐久性,完善路面设计理论,本文针对局部破坏中水平裂缝和纵向裂缝的产生机理展开研究。本文通过现场调查获得了局部破坏附近的横向裂缝宽度、横向裂缝间距等数据,用以建立包含裂缝相关数据的有限元模型。随后通过现场试验获得了获得了横向裂缝产生时路面板的温度梯度以及夏季和冬季的代表温度等数据,用于有限元模型中温度荷
学位