GFSF:一种新的基于频率向量的相似性连接算法

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zhaotong125555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似性连接技术在众多应用中是一项基础且重要的操作,即在字符串集合中找出所有符合给定条件的相似对。通常情况下,通过一个相似性度量函数和阈值来判断两个串是否相似,如果度量函数求出两个串的相似值小于阈值,则这两个字符串相似,反之,则不相似。相似性连接技术在许多方面具有广泛的应用,例如数据清洗和整合、模糊匹配、协同过滤、基因匹配、重复对象检测和删除等等。因此,在过去一段时间,业内对相似性连接技术进行了大量研究,并且取得了丰硕的科研成果。现有的相似性连接技术算法主要有两种类型,其中一种为过滤验证框架,另一种为借助于Trie树方法。过滤验证框架主要有两个过程组成,过滤和验证。在过滤阶段,通过某种算法淘汰掉一些非潜在的相似字符串对,并且产生候选相似对,接下来在验证过程,利用某种测量函数来验证候选相似字符串对是否相似。借助于Trie树结构的连接方法主要通过共享前缀以及活跃节点来判断两个串是否匹配。目前,比较主流的相似性连接算法主要有Ed-Join、Trie-Join、Pass-Join等等,在这上述些算法中,Pass-Join算法拥有比较好的整体性能。然而Pass-Join仍然存在不足,即在过滤阶段,过滤不充分,容易将大量非潜在相似字符串纳为候选相似字符串,导致验证阶段计算加重,执行时间长。针对Pass-Join存在的不足,本文提出了 GFSF算法,该算法基于字符频率向量在Pass-Join算法过滤阶段引入两层额外的过滤步骤全局过滤和局部过滤。当Pass-Join算法在过滤阶段每产生一对候选相似字符串对时,通过全局过滤来判断这个候选相似字符串对是否满足全局过滤条件,如果满足,则再进行局部过滤。如果同时满足全局过滤和局部过滤,那么这个候选相似字符串最后进入验证阶段。如果这个候选字符串对不满足全局过滤或者局部过滤任何一个,那么这两个候选相似字符串则不可能相似,即可以直接淘汰。并且,全局和局部过滤的时间复杂度低于Pass-Join的验证过程,因此通过两层过滤淘汰大量的非潜在相似字符串,可以极大提高GFSF算法的整体性能。通过这两层过滤,可以大大减少候选相似字符串的数量,进而大大降低验证阶段所消耗的时间,最终实现性能的提升。最后的实验结果证明了 GFSF算法的性能好于Pass-Join算法。
其他文献
我们用标量亥姆霍兹方程描述二维平面微波谐振腔(即微波弹球)中的电场,其电场垂直于腔的上板与下板,亥姆霍兹方程和描述量子弹球的薛定谔方程在数学形式上是等价的,因此,我们可以用二者的等价性来解决二维量子弹球的相关问题。关于不同边界谐振腔的能谱统计特性和电场分布的实验,是研究量子混沌的主要手段。我们设计了60°的二维扇形谐振腔,其经典动力学是可积的。为了得到系统从可积到近可积再到混沌的过渡,我们可以在扇
在开发停车系统APP的过程中发现,移动APP在进行数据请求时经常会出现服务器响应速度慢的问题,造成了不好的用户体验。因此需要提出一套方案来加快服务器响应速度,增强用户体
机器学习通过对样本图像集的低层特征进行学习,并依据机器学习机制对其进行分类,从而获得了较为准确的检索结果。支持向量机(Support Vector Machine,SVM)作为一种机器学习方
土壤分类不仅是土壤科学发展水平的反映,也是土壤学与其他学科之间交流的桥梁以及土壤学科与国际接轨的迫切需求。传统的土壤分类存在分类原则不统一,定量不足等问题,难与国
高中学业水平考试是鉴定学生学习质量的水平考试,同时考试结果也是大学招生的主要参考依据。学业水平考试结果能够较好地反映学生在知识与素养、过程和方法上的综合能力,因此,等级划分是学业水平考试的重要工作。基于混合Rasch模型的划分研究具有重要的参考借鉴作用。本文以项目反应理论中的混合Rasch模型为研究基础,首先是对2018年广西学业水平考试数学学科中的选择题进行了描述性统计分析,针对按照总分进行排序
演化算法是一类受生物进化启发而产生的随机优化算法。演化算法有许多良好的特性,例如对优化问题要求较低、易并行实现等等,这使其在实际问题中获得了广泛的应用。在这些实际
对平等问题的探讨,不能仅仅停留在各种不平等现象的表面,应该深入到社会的、经济的实际范畴,只有这样才能深刻、准确地理解平等问题。在绝对平等的条件下追求平等是毫无意义的,人们之所以渴望平等,是因为社会中存在的种种不平等现象。生活在资本主义时代的马克思,正是在亲眼目睹了资本主义社会形式平等下事实不平等的真相之后,对其根源进行深入挖掘。主张人类平等夙愿的实现要立足于对劳动本身的探讨,实现对劳动主体人的关怀
幼儿阶段是整个教育过程的基础阶段。幼儿园期间的语言训练对幼儿日后全面发展起着关键作用,是学好语文课程及其他课程的基础。但是,大部分幼儿园存在儿童语言训练问题,上级管理部门的支持力度不够,而问题仍然未解决。与幼儿园及其上级管理部门比社会工作小组具有专业技能,有优越性。本文选择锡林郭勒盟B旗蒙古族幼儿园为研究对象,通过实地调查,运用访谈法对B旗蒙古族幼儿园语言训练中存在的问题进行了认真地分析,并对存在
贝专纳兰地区在1885年至1966年期间以英国保护国的形式而存在,保护国时期英国在贝专纳兰地区主要采取的是间接统治制度,该制度的核心在于利用土著酋长进行地方管理,酋长成为负责维护地方人民与殖民统治着关系的桥梁。本文则尝试探讨这一时期贝专纳兰酋长,特别是势力最强的恩瓦托部族酋长与殖民当局的关系转变及成因并总结他们在英属非洲殖民地中的特殊性。本文正文将通过四个章节来阐述这一时期殖民当局与贝专纳兰酋长关
论文以北京版《格斯尔》为研究对象,对其所承载的蒙古民俗进行分析和研究。全文由绪论、正文、结论等三个部分组成。绪论部分简略陈述论文的选题缘由及研究意义、研究概况与研究方法。正文包含三章内容,即北京版《格斯尔》中所反映的社会习俗、象征习俗与宗教崇拜习俗。第一章结合蒙古民族的社会与历史背景,从年龄习俗和婚姻习俗两个方面阐释北京版《格斯尔》所反映的社会习俗。第二章运用文化学研究方法,从颜色象征和数字象征为