Top-k相似连接算法性能优化

来源 :软件学报 | 被引量 : 0次 | 上传用户:baobei_jing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似连接算法在数据清理、数据集成和重复网页检测等领域有着广泛的应用.现有相似连接算法有两种类型:基于相似度阈值的相似连接和Top-k相似连接.Top-k连接算法非常适合于相似度阈值未知的应用场景,目前最为有效的Top-k相似连接算法是Xiao等人提出的Topk-join.为了解决Topk-join中存在的性能问题,提出了一种Top-k相似连接算法Opt-join,该算法将Token批处理技术集成在现有的事件驱动框架中,以降低前缀事件的处理代价;通过置换哈希查找与过滤操作的执行位置来降低哈希查找代价,并理论
其他文献
日前,第六届华东地区水产动物营养与饲料科技论坛在浙江宁波召开.论坛由中国水产学会水产动物营养与饲料专业委员会、宁波大学、浙江万里学院主办,上海海洋大学、苏州大学、
科技玩具:不管是电子玩具或是虚拟电子玩具,都是目前市面上持续热卖的产品,延续这股电子科技的热潮,传统玩具业者利用晶片及电子装置来研发改造或创新既有产品,此类新产品已为传统
期刊
针对Keccak算法S盒层线性分解的问题,提出一种新的线性结构构造方法,该方法主要基于Keccak算法S盒代数性质。首先,S盒层的输入比特需要固定部分约束条件,以确保状态数据经过这
摘要:绘画活动与其他教育不同,采用“寓教于乐”的方法。绘画活动的开设不以培养画家为目的,激发学生兴趣,提供创造性思维的条件。改变传统教学模式,培养创造性思维;把各学科融会
报纸
处于干旱荒漠区的古尔班通古特沙漠因降水、冬季的积雪、悬湿砂层、丘间地和背风坡的植被、沙丘表层微弱的分化、砂物质粒度等因素的综合影响 ,以固定和半固定沙丘为主。由于
辩诉交易在美国的迅猛发展有着深厚的理念基础,即当事人主义和正当程序的理念及社会心理因素。辩诉交易制度的存在有其合理性,也存在一定的缺陷。通过对这一制度的分析与把握
<正>韭莲为石蒜科葱兰属,叶细尖而翠绿,长约30cm,宽约5mm。习性:为多年生草本植物。喜温暖湿润的土壤和充足的阳光,亦耐半阴,耐寒性较差。含有腐殖质、排水良好的砂质土壤最
期刊
声乐是音乐的一种重要表现形式,高校声乐专业的普遍开设,再一次使声乐教学的方法成为了一个普遍关注的问题。声乐教学与其它知识的教学既存在差异性,也存在共同性。文中重点分析
本研究以南京市金陵中学高中学生为研究对象,通过运用调查量表——《了解科学及科学探究本质量表》进行测验.使用SPSS11.5软件对数据进行分析,了解中学生科学本质观的现状,结合学
国际乒联于2001年9月1日把国际正式比赛制由原来的21分改为11分.对国内外优秀乒乓球运动员产生很大的冲击.本文通过对我国优秀女子乒乓球主力队员王楠11赛制技战术运用情况进