基于神经网络的可学习KD树研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:oqo235
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代不断发展,人们对数据检索的效率和准确程度的关注不断提高。现实世界中数据的维度往往比较高,传统的索引方法,例如哈希索引,虽然作为一种高效的信息检索方式被广泛应用于各类信息检索系统中,但目前已经越来越难以应对复杂的情况。如何高效而且有效的进行数据检索成为热门话题。为了保证检索效率,牺牲一定的准确度来换取更高的查询效率成为一种可行的方法。近年来,随着人工智能和深度学习的发展,机器学习在越来越多的领域发挥了巨大的作用。在此基础上,Google提出了一种使用机器学习模型代替传统索引结构的全新思路,并提出了可学习索引架构。本文首先总结了前人使用机器学习模型构建哈希函数的工作,并介绍了一种传统的树形结构:KD树。在可学习索引架构的基础上,提出了用于最近邻查找和k近邻查找的可学习索引框架:可学习的KD树LK。该框架包含了六个阶段,每个阶段都定义了具体的作用和规则。相比较于前人,本文的创新点在于提出了全新的LK框架,利用LK框架实现了最近邻查找和k近邻查找,在选取合适的损失函数的基础上分析了各种参数对实验结果的可能影响,并总结了如何在具体的情况下选择合适的参数。最后,通过实验验证了LK框架的可行性,从运行时间和准确率两个角度和KD树进行了对比,并针对框架存在的问题提出了改进方法。实验结果表明,无论是生成的数据集还是真实数据集,LK框架能够在保证一定查找精度的基础上,在查找时间上获得一定的优势。
其他文献
数据已经成为了核心的战略资源之一,无论是社会进步还是企业成功,越来越依赖于对数据的分析。数据一致性和数据时效性作为数据质量管理中重要组成部分,一直是相关领域的研究重点。数值数据在医学和金融等领域内广泛存在,提高数值数据的数据质量无论是作为企业数据储备、高质量数据分析的基础还是用于开发相关应用,都有足够广泛的应用前景。改善数值数据的一致性与时效性一直是领域内的研究热点和重点。数据的时效性错误和一致性
社交媒体网站、电商网站等数据都呈现出爆炸式增长,产品推荐方法应运而生。但是在实际的应用场景中,如何把合适的产品在合适的时机推荐给合适的消费者是电商一直关心的问题,而用户画像可以很好地解决这一问题。目前的基于用户画像的产品推荐方法主要存在以下问题:1.很少考虑用户的社会网络信息。2.大多基于单一标签进行画像,往往忽略了基于用户兴趣画像的标签集合。3.已有方法的推荐结果往往可解释性较差。因此,针对这些
现今,科学技术发展迅速,越来越多的海洋资源被发现,然而,仍有超过90%的海洋资源未被探索。海洋资源的探索与开发需要先进的技术与装备,水下机器人是唯一能够深海工作的重要装备,在海洋开发中具有重要的作用。无人无缆自主式水下机器人(AUV:Autonomous Underwater Vehicle)由于其机动性好、作业范围大等特点,在海洋开发中扮演中重要的角色。AUV工作于复杂海洋环境中,其自主控制需要
本论文旨在探讨苏轼黄州时期诗歌创作样貌。在人生境况的变化下,苏轼的诗歌创作也出现转折点,内容偏向、风格特色等都“为之一变”,在整个苏诗历程上处于承上启下的作用。全文共分为五个部分进行探讨,梳理如下:第一章为绪论部分。第二章主要通过苏轼黄州时期诗歌创作,探讨诗人在贬谪中的生存状态。第一节展现苏轼由地方官到谪臣的身份转换下的心态,由幻灭、纠结到实现短暂认同。第二节论述苏轼在身份认同下寻求着消解悲剧意识
蛋鸭的生产性能受多种因素的影响,包括品种、营养和饲养管理等因素。近些年,随着网床平养模式在蛋鸭养殖中的推广与应用,蛋鸭养殖集约化和规模化程度也逐渐增加。动物群体饲养规模影响到动物的生长发育和生产性能,也是动物健康和动物福利的关键参数之一。但目前,关于群体规模大小对家禽生产性能影响的研究主要集中在蛋鸡上,对蛋鸭生产的影响还不较少。本研究拟以金定鸭作为研究对象,在饲养管理及养殖密度等条件一致的情况下,
社会网络是一种个人或集体之间为了交换信息而组成的关系网络。社会网络存在社区结构特性,网络会根据其本身的拓扑结构被划分为多个社区。社区之间是通过桥节点联系的,因此需要在桥节点中寻找关键节点,通过保护关键节点从而保障社会网络社区间的连通。本文针对社会网络社区结构特性,在社会网络中评估关键节点。论文根据社会网络的社区结构特性提出了一种基于桥节点的社会网络关键节点评估方法。本文构建了社会网络场景,并采用N
随着模式识别和人工智能领域的不断发展,人脸识别技术亦日趋成熟,而人脸表情识别与人脸识别技术息息相关,其已逐渐成为人工智能、模式识别和人类情感理解等领域的研究热点之一。传统的人脸表情识别算法依赖于人为设计的特征,算法设计周期较长且识别率有限。神经网络识别算法依赖于自身的网络架构和数据集样本训练的模型,在经过大量的人脸表情数据集训练后,识别精度较传统算法更高,但会耗用更多的计算资源且延缓网络模型训练时
本论文是在国家自然科学基金(No.51675258)资助下,针对传统的基于平行因子(Parallel Factor,PARAFAC)的盲源分离(Blind Source Separation,BSS)方法复杂度高,运行时间长的不足,提出一种自适应PARAFAC的盲源分离方法。通过仿真分析和实验来验证所提方法具有可行性。主要研究内容如下:1.传统的基于PARAFAC-BSS的多故障盲源分离方法是通过
人类为了获得电能创造了各种发电方式。利用核聚变和核裂变产生的巨大能量来发电则是当今世界各国的主要发电方式。然而这种发电方式是非常危险的,核电站内具有很强的辐射,对人体的危害极大。核电站有着大量的巡检工作需要来完成,以保证仪器的正常运转和环境的清洁。因此,巡检机器人被广泛和大量的使用来代替人类进行核电站内的巡检工作。本课题来源哈尔滨工程大学机电工程学院发展基金(代码:002070300147)。本文
近年来,复杂网络的社区发现由于可以发现隐藏在网络中的有用信息,在社交网络、电子邮件网络、引文网络和生物网络等应用领域上引起了广泛的关注。在社交网络中,社区发现可以用于预测推荐系统中用户之间的信息传播或预测行为之间的缺失环节,由于大规模的在线社交网络已经深深地融入到我们的日常生活中,从中发现有意义的社区对于各种目的的研究和应用变得至关重要。本文基于结构熵对社区结构在内聚度度量、耦合度度量、社区发现等