SNM算法相关论文
随着信息化的高速发展和客观上硬件技术的有效支撑,使得数据集中的海量数据不免存在冗余、缺失、不确定数据和不一致数据等诸多情况......
随着经济的快速增长,数据量快速增加,越来越多的数据处理技术随之出现,例如数据收集、存储等。然而当企业决策人员希望使用这些海......
摘要:在大数据处理分析中,需要对数据记录进行相似重复记录检测并消除,可以提高数据记录的质量。邻近排序算法(SNM算法)是对数据库所有......
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集......
数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(sorted-neighborhood method,SNM)时间效率和准确率......
在处理大量业务数据时,传统的基本临近排序算法(sorted-neighborhood method,SNM)查准率、查全率均不高。针对SNM算法的缺陷,提出了......
经典的相似重复记录检测算法SNM算法随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大.针对SNM算法的不......
数据库中相似重复记录的清洗是提高数据质量的有效措施,传统的邻近排序算法 SNM的滑动窗口难以确定,而且要对窗口内的所有记录进行......
高质量的数据是构建数据仓库的最重要因素,低质量的数据可能对决策产生不利影响。来自不同数据源的相似重复记录是数据仓库构建中......
SNM算法即邻近排序算法,是英文数据清洗最常用的算法[1]。目前为止,因为中英文语义的差异等一些原因,中文数据清洗还未形成完整的......
针对RFID中间件冗余数据处理问题,提出一种改进的基本临近有序法(SNM)算法.通过对大量RFID数据进行分组,采用随机因子改变窗口大小......
工业大数据是支撑未来智能信息化的基础,企业在发展过程中积攒了大量珍贵的数据信息,这些数据在企业的发展过程中起着举足轻重的作......
对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学......
随着互联网技术的不断发展,人们在使用互联网技术时不再仅仅满足于信息检索功能,而是需要系统从这些检索到的信息中抽取出用户感兴......
聚类分析是数据挖掘领域一项重要的课题。针对重复数据与孤立数据的预处理可以优化聚类结果。重复数据处理方面,文中在传统的重复数......
数据一直是各大企业竞争的对象,而企业在采集、处理以及最终录入数据库的数据中往往存在着相似重复的数据,这些数据也即“脏数据”......