基于量化的近似最近邻搜索技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:w01225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近邻搜索是机器学习、计算机视觉和信息检索里一个重要的基础性问题。然而,在大规模高维数据环境下,给定查询点,找到其精确的最近邻需要大量的计算及存储空间。近似最近邻搜索算法由于其存储空间少、查找效率高等优点引起了人们的广泛关注。而如何快速、高效、准确地进行近似最近邻搜索是目前学术研究的一个热点和难点。一般来说,近似最近邻搜索的算法在尽可能保证其准确性的情况下主要从两个方面提高搜索速度。第一个是利用特殊的数据结构来减少查询点与数据点的比较次数;第二个是利用紧凑码来加速计算查询点与数据点之间的距离,比如通过哈希算法或量化算法将数据点映射为紧凑码。本文主要从第二个方面——基于量化的近似最近邻搜索算法——研究如何获得更优质的紧凑码来提高查找准确率和查找效率。本文主要研究内容和创新成果如下:1.针对无监督的近似最近邻搜索,本文提出一种组合量化方法。其主要思想是用若干个子中心点之和作为重构点来近似数据点,其中每个子中心点来自不同的子字典,数据点用这些子中心点在各自子字典中的索引值来表示。同时,我们引入近似正交约束条件,使得计算查询点与重构点的距离可以用查询点和这几个子中心点的距离之和来代替进而加速距离计算。与已有的量化方法的对比实验结果表明,近似正交的组合量化可以获得更高的查找准确率。2.本文提出一种稀疏组合量化算法,用以减少组合量化中创建查阅表所需的时间。大规模数据的近似最近邻搜索通常结合倒排表进一步加速搜索。而组合量化在对倒排表返回的数据点进行排序的时候,创建查阅表所需的时间变得不可忽视。针对这一问题,本文提出的稀疏组合量化方法,引入了一个稀疏条件,使得重构字典里的每一个子中心点是一个稀疏向量。其好处是,当创建查阅表需要计算查询点与子中心点的欧氏距离的时候,由于子中心点是一个稀疏向量,可以加速距离计算。在大规模数据集上的近似最近邻搜索表明,稀疏组合量化相比较于组合量化,可以获得更快的查找速度。3.本文提出基于量化的近似最近邻搜索算法用于跨模态最近邻搜索领域中。所谓跨模态最近邻搜索,指的是查询点和数据点来自不同的数据模态,例如用图像查询点去搜索相似的文本数据点,或用文本查询点去搜索相似的图像数据点。本文提出的算法只假设一幅图像和一段文本是一一对应的,而不需要已知图像和文本的类别。该算法首先将来自不同模态的一对数据映射到同一空间中,之后在这个映射后的空间对不同模态的数据通过组合量化进行近似,同时使来自不同模态的一对数据的近似表示尽可能相同。大量的实验比较表明,本文提出的算法在跨模近似态最近邻搜索中可以获得更高的查找准确率。4.针对有监督近似最近邻搜索,本文提出了一种新的量化方法。不同于无监督近似最近邻搜索,量化算法直接在数据库上进行量化,本文提出的算法是使数据点首先通过一个线性变换,之后在线性变换后的数据点上进行组合量化。其优化的目的不仅要使得量化后的近似表达能准确地代表线性变换后的数据点,同时也使得数据点在线性变换后具有类别可分离性,即相同类别的数据点在线性变换后距离很近,不同类别的数据点在线性变换后的空间内相距很远。与现有的有监督近似最近邻搜索算法的实验比较表明,本文提出的算法可以获得更高的查找准确率。综上,本文在无监督的近似最近邻搜索,跨模态的近似最近邻搜索,以及有监督的近似最近邻搜索这三个领域提出了四个新颖的算法,用于提高近似最近邻搜索的查找准确率以及查找效率。大量实验结果表明了本文提出的方法的查找结果好于已有方法的查找结果。
其他文献
目的 探讨3D腹腔镜根治术治疗右半结肠癌的临床疗效及安全性。方法 回顾性分析2014年1月至2016年1月接受治疗的53例右半结肠癌患者的临床资料,根据手术方式分为3D组28例和2D
螺旋锥齿轮啮合时产生的附加动载荷是螺旋锥齿轮传动产生振动,噪声的主要原因。本文根据国家提出了以附加动载荷和振最小为双目标的模糊优化数学模型。在充分考虑影响螺旋锥齿
¥南京建筑工程学院@张元元@王强@严骏多年来,在机械设备的预防维修过程中,油液分析技术被用来预测即将到来的机械故障。油液分析的基本依据是,所有机械系统在运转过程中均同时经历着
近些年,微博由于其短文本性、即时性和裂变式传播特性,已成为当前最重要的社交网络媒体之一。它亦成为人类获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒
习水县是典型的山区农业大县,发展山地农业机械化对全县经济发展和社会稳定具有重要支撑作用。由于地形复杂、土地破碎,山地占全县耕地面积的85%,非常适合发展山地农机。因山
异质信息网络是无处不在的。挖掘隐藏在异质网络中偏离正常数据对象的离群点是数据挖掘领域的重要任务之一。离群点检测在入侵检测、欺诈检测、预测恐怖袭击、预测可疑事件和
人类史上有很多失落的部分是现代历史还无法告诉我们的,而这些失落的线索,很可能就如同那些沉没在海底的遗迹一样.深藏人类文明兴衰的秘密;
期刊
近期研究显示,线粒体的功能已不单单限于有氧呼吸及能量合成,线粒体释放的损伤相关分子模式(尤其是线粒体DNA)参与机体的一系列免疫调控,介导机体特定免疫应答的形成与发展。
外籍球员的引进管理既是一个职业足球俱乐部工作的重要组成部分,同时也是衡量一个职业足球俱乐部发展水平的重要标尺。中超俱乐部高薪引进外援在业界存有国内球员的生存之忧
机械产品在现场使用中的反馈的信息,是分析其使用可靠性的主要数据来源,但是在现场反馈信息中,现场人员对机械产品使用情况的描述,使用大量的外延不分明的模糊语言,如“渗油比较严