论文部分内容阅读
数据清理是构建数据仓库中的一个重要研究领域。检测相似重复记录是数据清洗中一项非常重要的任务。提出了一种聚类检测相似重复记录的新方法,该方法是基于N-grmn将关系表中的记录映射到高维空间中,并且通过可调密度的改进型DB—SCAN算法IDS来聚类检测相似重复记录。并用实验证明了这种方法的有效性。