基于实体的相似性连接算法

来源 :软件学报 | 被引量 : 0次 | 上传用户:simplyblue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
按照元组描述的实体对其进行组织和查询处理,是一种管理劣质数据的有效方法.考虑到同一个实体的同一属性存在多个描述的值,因此,基于实体的数据库上的连接是支持多个值的相似性连接.与字符串的相似性连接相比较,实体的相似性连接在数据清洗、信息集成、模糊关键字查询、诈骗检测和文本聚集等领域有着更好的应用效果.通过建立双层索引结构,提出了实体数据库上相似性连接算法ES-JOIN.同时,该方法适用于解决集合中字符串模糊匹配的相似性连接问题,而传统的集合相似性连接只针对集合中元素精确匹配的情况.为了加速连接,还提出了过滤措施对算法进行优化,进一步给出了优化算法OPT_ES-JOIN.实验验证了ES-JOIN算法和OPT_ES-JOIN算法具有很好的效率和可扩展性.实验结果表明,过滤措施具有很好的过滤效果.
其他文献
以2012—2013赛季至2018—2019赛季美国职业篮球联赛得分后卫的基础数据和进阶数据为基础,运用因子分析和K-Means聚类算法建立聚类模型,对球员类型进行分析。相比于传统方法
目的:探究运动方式对大鼠血清和腓肠肌中NEFA及myonectin的影响。方法:四周龄SD大鼠建立肥胖模型后随机分四组(Con、Exe1、Exe2和Exe3)继续高脂喂养,训练8周后取样,测定大鼠
妈妈,你藏在哪儿?在那一大片黑豆地里,我领着弟弟和妹妹找啊找啊,就是找不到她。每一个豆荚里,都有好几个藏身之处。母亲变成了一粒豌豆,我们如何能找到她呢?这一次,她真的藏起来了;藏
带状疱疹后神经痛(PHN)常为顽固性慢性疼痛,虽然目前治疗PHN的手段很多,但效果不一定都令人满意。近年来,A型肉毒杆菌毒素(BTX-A)皮内注射治疗就是其中之一。本文通过已发表的荟萃分析研究,认为需要进行多中心精心设计的RCT研究才能证实。
大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.提出了大数据环境中一种基于Hadoop分
在靶场试验过程中,传统的单基准站由于基线长度的限制使其作用范围有限,从而超出一定距离后,差分精度随着大气误差相关性的减弱而明显受到影响;为了解决靶场GPS单频伪距差分定位距离远时精度下降问题,提出了多基准站GPS定位伪距差分定位方法;该方法深入分析伪距方程和伪距差分定位之间的关系;建立靶场基准站网络实时接收目标定位数据和基准站定位数据并实时传送到控制中心;利用基于距离的线性内差模型,设计多基准站数
针对某机载惯导设备在外场的测试需求,设计了以PC-104为显示、控制和数据处理核心,并扩展程控数字表、多通道矩阵板,构建了原位测试仪的硬件电路;根据系统的功能要求和硬件电
三叉神经痛治疗可以分为神经损毁性和非损毁性方法。神经损毁性疗法的优点是起效快,但有损毁神经支配区麻木和肌肉瘫痪等并发症,而且复发也不可避免。神经损毁后疼痛缓解不满意或者复发后的治疗更加困难。用神经修复疗法治疗三叉神经痛不仅有利于患者生活质量,也为患者远期治疗和康复留有余地。
鉴于特殊的飞行任务需求,某型号航电综合单一的故障逻辑难以满足多元故障状态下自主重构需求,降低了系统容错性;为解决航电综合多元故障模式难以量化表征影响故障重构的工程难题