近似重复记录相关论文
数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近部排序方法,并以此为基础,研究了在......
介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重......
在进行数据录入的过程中,经常会发生录错、数据源表现各异等状况。因而针对传统的多数据源近似重复记录增量式识别方法存在执行时......
数据集成往往会形成一些近似重复记录,如何检测重复信息是数据质量研究中的一个热门课题.文中提出了一种高效的基于条件概率分布的......
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法......
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到......
信息技术的飞速发展使组织的管理者进行决策分析时对数据的依赖性越来越强。于是在数据库的基础上产生了能够满足决策分析所需要的......