一种基于N-Gram的检测相似重复记录的高效方法

来源 :第十六届全国数据库学术会议 | 被引量 : 0次 | 上传用户：jhiphop

【摘要】

：

如何消除数据库中的重复信息已成为数据质量研究中的一个热门话题。该文提出了一种基于Ｎ－Ｇｒａｍ的检测相似重复记录的方法，主要工作有：（１）给出了一种高效的基于Ｎ－Ｇｒａｍ的聚类算法，该算法能适应常见

【作者】

：

邱越峰田增平周傲英

【机构】

：

大学计算机系(上海)

【出处】

：

第十六届全国数据库学术会议

【发表日期】

：

1999年期

【关键词】

：

检测相似重复记录聚类算法复杂度重复信息质量研究数据库拼写错误队列算法比较算法应用方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如何消除数据库中的重复信息已成为数据质量研究中的一个热门话题。该文提出了一种基于Ｎ－Ｇｒａｍ的检测相似重复记录的方法，主要工作有：（１）给出了一种高效的基于Ｎ－Ｇｒａｍ的聚类算法，该算法能适应常见的拼写错误如插入、删除、替换、效换等，复杂度为０（Ｎ）；（２）介绍了一种高效的应用无关的Ｐａｉｒｗｉｓｅ比较算法，复杂度为０（Ｋ〈’２〉）；（３）采用了一种改进的优先队列算法来准确地聚类相似重复记录。

其他文献

浅析宋小品花鸟画中的“精微传神”r——以《果熟来禽图》为例

花鸟画是我国绘画重要组成部分,宋代是工笔花鸟画的兴盛时期,不论是“形”还是“神”皆有出色的表现.文章以宋经典小品花鸟画《果熟来禽图》为例,指出其不仅展示了经过反复推

期刊

传神写实象外之意写生

Newlase F混合酶在脱保护反应中的应用研究

会议

混合酶脱保护反应

基于学术期刊评价指数的团体学术影响力分析r——以福建师范大学地理科学学院为例

客观准确评价团体的学术影响力是推动学术创新和提高学术成果质量的基本前提,也是大力推进“双一流”建设的重要保障.本文以福建师范大学地理科学学院为研究对象,统计了2014

期刊

学术期刊评价指数团体学术影响力地理科学学院