数据仓库中的相似重复记录检测方法

来源 :电子科技大学学报 | 被引量 : 0次 | 上传用户:yhmlivefor49
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对检测和消除数据仓库中的相似重复记录问题,提出了数据仓库中的相似重复记录检测方法。该方法先通过等级法计算每个字段的权值;然后,按照分组思想,选择关键字段或字段某些位将大数据集分割成许多不相交的小数据集;最后,在各个小数据集中检测和消除相似重复记录,为避免漏查,再选择其他关键字段或字段某些位重复多次检测。理论分析和实验表明,该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。
其他文献
高校教学督导作为教学质量监控的重要组成部分,在高等教育教学质量管理中发挥着极其重要的作用,建立选拔、评价和激励机制是建设高素质督导员队伍的前提,加强创新管理是高质量开
大类培养模式是成人高等院校提升人才培养质量的重要探索,是成人高等教育主动适应社会人才多样化需求的重要举措。本文力图探讨大类培养模式对成人高等院校通识课程设置的价值
运用时空神经网络时域和空域模式识别方法给数字示波器增加AM调制信号测量功能。选择Elman神经网络结构,采用反向传播网络训练函数traingdx和learnbcf函数的算法,实现了AM调
随着《国家中长期教育改革和发展规划纲要(2010—2020年)》《国家教育信息化十年规划(2011—2020年)》等相关文件的出台和落实,使得当代教育教学的使命有了新的内容,即教育教
研究了任意倾斜的直流偏置磁场作用下磁光薄膜中激发的微波静磁波传播规律,为下一步分析基于静磁波的磁光Bragg器件衍射性能提供基础.计算了YIG薄膜中传播的静磁正向体波特性,结
笔谈“中国美术的自觉与主体精神”,这一命题具有重要的文化艺术战略意义。延伸来看:中国美术的自觉应建立在文化自觉的基础上;而主体精神既包括了主体创造精神,也包括了主体的批
市场经济的发展必然会带来校准工作的市场化,这是由市场经济的特点和校准工作的自主性决定的。校准市场的产生有其必然性,校准市场建立有其必要性。随着校准市场的进一步发展和繁荣,必将出现一系列新的校准服务及其形式。一是校准服务体系将建立,校准需求和资源信息流通更加通畅和便捷,形成细分市场,对不同需求的客户提供不同的定位校准服务,价格趋向合理,并将培育出有实力、上规模的品牌机构。二是校准服务形式的发展将趋向方便客户、满足客户的各种需求。三是新的校准对象和参数越来越多、准确度越来越高、量限越来越宽、校准对象的功能越
将纳米VO2粉体与聚3,4-乙撑二氧噻吩复合,制备出一种新型的负电阻温度系数特性的聚合物基复合材料。通过计算复合膜简化模型的等效电阻网络,结果表明串联电阻结构有利于复合
为了提高正交频分复用系统的传输效率,提出了一种基于叠加导频的最大期望迭代信道估计算法。该算法不需要信道和接收数据的统计特性,信道估计在一帧内完成,没有因发送导频而
牙冠劈裂的保留问题越来越受到人们的重视。几年来对257例劈裂牙冠进行治疗与修复,取得了令人满意的效果并对此进行追踪调查,现报告如下。